排序方式: 共有110条查询结果,搜索用时 15 毫秒
51.
自组织中文语义映射网络的优化特征编码方法 总被引:2,自引:0,他引:2
本文介绍自组织中文语义映射网络,并分别基于集合论、代数理论和概率论研究和提出六种不同的特征编码方法,这对自组织语义映射效果有很重要的影响。通过性能评价得出如下结论:使用TFIDF修正的频率密度编码能得到最佳效果,其语义映射的精确度和召回率分别为94.4%和90.7% ,而基于向量模型的方法则都不适用于中文自组织语义映射。文中给出结果分析。另外比较实验结果表明文中的最好方法其系统性能好于目前广泛采用的分层聚类技术,并远好于多元统计分析技术,例如主成分分析的特征降维编码。 相似文献
52.
DF还是IDF?主特征模型在Web信息检索中的使用 总被引:11,自引:0,他引:11
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善. 相似文献
53.
54.
基于概念索引的图像自动标注 总被引:2,自引:0,他引:2
在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.一个新的解决方法是按照图像的语义内容进行自动标注.为了缩小语义差距,采用基于支持向量机(SVM)的多类分类器为空间映射方法,将图像的底层特征映射为具有一定高层语义的模型特征以实现概念索引,使用的模型特征为多类分类的结果以概率形式组合而成.在模型特征组成的空间中,再使用核函数方法对关键词进行了概率估计,从而提供概念化的图像标注以用于检索.实验表明,与底层特征相比,使用模型特征进行自动标注的结果F度量相对提高14%. 相似文献
55.
排序学习算法作为信息检索与机器学习的一个交叉领域,越来越受到人们的重视。然而,几乎没有排序学习算法考虑到查询差异的存在。文中查询被建模为多元高斯分布,KL距离被用来度量查询之间的距离,利用谱聚类方法对查询进行聚类,为每个聚类类别训练一个排序函数。实验结果表明经过聚类得到的排序函数需要较少的训练样例,但是它的性能却和没有经过聚类得到的排序函数具有可比性,甚至优于后者。 相似文献
56.
多Markov链用户浏览预测模型 总被引:23,自引:0,他引:23
建立有效的用户浏览预测模型,对用户的浏览做出准确的预测,是开发各种浏览导航工具的关键.传统的Markoxr链模型是一种简单而有效的预测模型,但它存在预测准确率低,存储复杂度高等缺点.通过对该模型的扩展,该文提出并建立了一种基于用户分类的新模型——多Markov链模型.实验表明,该模型能更准确地描述用户在Web上的浏览特征,在预测准确率和存储复杂度方面都显著地优于传统的Markov链模型. 相似文献
57.
58.
使用遗传算法的信息检索动态参数学习方法 总被引:4,自引:0,他引:4
信息检索系统中的参数设定在很大程度上决定着系统的检索性能.参数的数据相关性和敏感性使得经验值往往不可靠.另一方面,由于在检索过程中缺乏当前查询的相关文档信息,因而不可能进行有指导的参数学习.因此,自动无指导的参数学习方法是极为必要和重要的.首先考察传统上根据经验值设定固定的系统参数的效果,结果表明其泛化能力差,效果不稳定且不可靠.其次,提出一种使用遗传算法进行动态参数学习的方法.在TREC11,TREC10和TREC9三组大规模Web标准测试数据集上进行了实验,数据集规模均超过10GB.实验结果表明,经过动态参数学习,系统性能总是能够接近甚至达到可能实现的最优性能. 相似文献
59.
60.
基于贝叶斯分类器的图像检索相关反馈算法 总被引:9,自引:1,他引:9
由于图像底层特征及其本身所包含的上层语义信息的巨大差距,使得基于内容的图像检索很难取得令人满意的效果.作为一种有效的解决方案,在过去的几年中,相关反馈在该研究领域取得了一定的成功.提出了一种新的具有学习能力的反馈算法.该算法基于贝叶斯分类原理,运用不同的反馈策略分别处理正、负反馈,同时它具有学习能力,可以运用用户的反馈信息不断地修正检索参数,使系统的检索能力得到不断的提高.通过在大图片库上的检索实验 ,该算法产生的效果大大优于当前其他的反馈方法. 相似文献