共查询到10条相似文献,搜索用时 15 毫秒
1.
2.
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型.以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型.在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度.实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率. 相似文献
3.
隐含语义索引模型的分析与研究 总被引:4,自引:0,他引:4
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型——LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。 相似文献
4.
《模式识别与人工智能》2014,(7)
主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要性区分.文中提出查询无关排序主题模型框架,利用主题间各种关系排序主题,得到有序主题列表.主题关系从主题层面评价主题影响度,继而提出词项贡献度,从词项语义层面评价主题,削弱流行但语义空泛的排序主题.由于排序主题模型尚未有公认的评价标准,将有序主题作为特征进行多文档自动文摘生成,通过文摘效果间接评价主题排序的效果.实验结果证明有序主题模型优于非排序主题模型的结果. 相似文献
5.
6.
为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义相关性得分来获得最相关的文档.本方案将密文检索中的特定关键词替换为基于语义的主题,实现了关键词和文档标识符的分离,从而增强了文档关键词与查询关键词的隐私保护.为了减小索引规模,我们提出两层索引结构,利用平衡二叉树构造关键词-主题安全索引,结合倒排索引构造主题-文档安全索引.一方面,主题模型减小了索引节点中向量的维数,从而提高了检索效率,同时基于平衡二叉树的二级索引机制也进一步改善了密文检索效率.安全性分析证明了所提方案是安全有效的,同时利用真实数据集进行实验对比,表明本方案的密文检索准确率和效率都有极大提升. 相似文献
7.
8.
9.
隐含语义索引及其在中文文本处理中的应用研究 总被引:33,自引:0,他引:33
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。 相似文献
10.
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。 相似文献