期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈津颖金奕江马少平《中文信息学报》2000,14(5):42-48

手写体汉字特征一般在几百维以上,在这样的高维空间中,汉字样本是如何分布的?本文从可视化的角度对这一问题进行了探讨。论文首先给出了所选用的汉字特征的定义,然后对一些具有代表性的汉字实例,从K-L变换法、线性投影法和非线性投影法三个方面,对汉字在特征空间的分布问题进行了可视化分析,结果表明,可视化分析可以帮助人们了解汉字在特征空间的分布情况,对改进识别器的性能具有指导意义。相似文献

2.

清华THUIR 2005年863信息检索评测

赵乐岑荣伟王灿辉齐伟金奕江张敏马少平《中文信息学报》2006,20(Z1):91-95

在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字,以及我们在去年已使用的词对检索方法.由于只能提交一组自动方法检索的结果,我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数,以及有比较一致的良好效果的入链接描述方法.就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果. 相似文献

3.

汉字的线性分类实验 总被引：1，自引：0，他引：1

金奕江马少平《中文信息学报》2000,14(2):55-59

本文通过实验研究了在汉字识别中应用线性分类器的可能性,考察了汉字之间的线性可分性。实验使用了两种主要的线性分类器: Fisher线性判别和感知器。实验检验每一对汉字的线性可分性。实验结果表明,汉字之间的线性分类性是相当好的。尤其是Fisher线性判别,不能成功线性分类的汉字仅占百万分之4.25 。这显示了在汉字识别中应用线性分类器是有着巨大的潜力的。同时,线性分类实验结果还可用来检验所选取特征的好坏,有利于客观的评价特征。相似文献

4.

长尾查询搜索性能评价方法的研究

霍帅张敏刘奕群马少平金奕江茹立云《中文信息学报》2014,28(3):75-80

各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的严重不平衡问题提出两种数据平衡方法。最后提出并改进了长尾查询评价方法。在真实搜索引擎结果数据集上的实验验证了所提出的评价方法取得一定的评价效果,其中对不相关文档的评价取得较高的准确率。相似文献

5.

锚文本检索有效性分析

周博刘奕群张敏金奕江马少平《软件学报》2011,22(8):1714-1724

锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能. 相似文献

6.

使用基于SVM的否定概率和法的图像标注 总被引：1，自引：0，他引：1

路晶金奕江马少平茹立云《智能系统学报》2006,1(1):62-66

在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.对此提出了一种为图像提供语义标签的标注方法.先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”法为合成方法构建基于成对耦合方式（PWC）的多类分类器,并对未标注的图像进行分类,结果以N维标注向量表示,实验表明,与一对多方式（OPC）的多类分类器及使用概率和法的PWC相比,“否定概率和”法性能更好. 相似文献

7.

一种基于文档相似度的检索结果重排序方法

周博岑荣伟刘奕群张敏金奕江马少平《中文信息学报》2010,24(3):19-24

对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。相似文献

8.

基于多Agent系统的脱机手写体汉字识别

马少平金奕江《智能系统学报》2009,4(5):398-405

由于脱机手写体汉字的多样性和随意性,识别起来具有很大的难度,依靠单一的特征很难实现高准确率的识别．引入多Agent的概念,将多种知识统一于多Agent系统之中,给出了一个面向脱机手写体汉字识别的多Agent类市场模型,提出了一种模糊综合方法和辩论协商规则,实现了一个基于多Agent系统的脱机手写体汉字识别系统．初步测试结果显示出系统的有效性．相似文献

9.

面向用户行为的页面质量评估

下载免费PDF全文

王晓光刘奕群金奕江岑荣伟马少平茹立云《计算机科学与探索》2010,4(7):589-598

页面质量评估在搜索引擎系统中具有极其关键的作用,传统的方法是基于页面链接关系进行页面质量评估。但由于当前Web环境的复杂性,传统方法已经难以适应当前的Web环境,近年来,用户行为被用来弥补完全依赖链接关系方法的不足。用户行为可以分为两类:浏览行为和搜索行为。利用浏览行为构造了用户浏览图;提出了一种利用用户搜索行为的新方法,此方法构造了用户搜索图;合并用户浏览图和用户搜索图得到用户浏览搜索图。实验表明用户浏览搜索图的性能比较接近用户浏览图的性能,并超过全网的性能,同时用户浏览搜索图能够评价的页面数要大于用户浏览图。相似文献

10.

Web信息检索结果融合中的按位加权插入合并算法

张敏金奕江马少平《中文信息学报》2004,18(2):9-15

在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法。在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多。其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。相似文献