排序方式: 共有109条查询结果,搜索用时 31 毫秒
91.
一种提高中文搜索引擎检索质量的HTML解析方法 总被引:15,自引:1,他引:15
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说,想在检索或者后处理阶段解决这类问题不仅要付出一定代价,而且在大多数情况下是不可能的。在这篇论文中,我们提出了网页噪声的概念,并针对中文网页的特点,实现了一种对网页自动分块并去噪的HTML解析方法,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明,该方法能够在不占用查询时间的前提下100%地消除中文搜索引擎隐藏的间接项,以及大约11%的无法过滤或隐藏的无关项或间接项,从而大幅度提高检索结果的查准率。 相似文献
92.
93.
在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法。在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多。其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。 相似文献
94.
95.
《四库全书》是中文古籍的经典和代表。对《四库全书》的整理,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统,主要功能是对《四库全书》的页面图象进行分析和理解,分离图象中的汉字用于识别和统计,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷,版面有一定规范,但形式多样、结构复杂、图象质量和字体大小有差异,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看,本系统已经能够自动采用相应算法,处理多种规范和准规范的版面,并提供方便的人工辅助纠错功能,保障了预处理工作的顺利进行,也为识别系统的学习建库和识别创造了良好的条件。 相似文献
96.
为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性. 相似文献
97.
排序是信息检索中的一个重要的环节,当今已经提出百余种用于构建排序函数的特征,如何利用这些特征构建更有效的排序函数成为当今的一个热点问题,因此排序学习(learningtorank)作为信息检索与机器学习的交叉学科,越来越受到人们的重视.根据不同的原则,查询可以分为不同的类别.不同类别的查询,排序特征的重要性不同,在排序函数的构建过程中的权重也会不同.为所有的查询都采用统一的排序函数是不合理的.针对这一问题,首先对利用关键词匹配原则得到的查询特征进行分析,选择出适当的查询特征集合构建查询特征向量,然后基于查询特征向量之间的距离对查询进行聚类,并为每个聚类类别学习得到排序函数,最后为一个新来的查询选择最适合的排序函数对文档进行排序.实验结果显示,在经过查询特征选择的查询聚类基础上得到的排序函数,和在所有的查询类别上得到的排序函数,两者的性能具有可比性,甚至前者优于后者. 相似文献
98.
该文介绍THUIR团队在“2018机器阅读理解技术竞赛”中的模型设计与实验结果。针对多文档机器阅读理解任务,设计了基于自注意力机制的多任务深度阅读理解模型T-Reader,在所有105支参赛队伍中取得了第八名的成绩。除文本信息外,提取了问题与段落精准匹配等特征作为模型输入;在模型的段落匹配阶段,采用跨段落的文档级自注意力机制,通过循环神经网络实现了跨文档的问题级信息交互;在答案范围预测阶段,通过进行段落排序引入强化学习的方法提升模型性能。 相似文献
99.
100.
用于信息检索的古文统计分析 总被引:1,自引:1,他引:0
根据中文古籍信息检索技术的需求,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上,对三千五百万字的中文古籍语料进行了统计分析,总结出在古汉语中,汉字在高频字上集中分布而在低频字上相当散布,且总体变化成指数递减的规律,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较,得出相应结论,并按照使用频度,把古汉语的汉字进行了分类。最后,这些统计学习到的知识,在中文古籍信息检索系统中得到了实际的应用。 相似文献