共查询到19条相似文献,搜索用时 796 毫秒
1.
2.
2005年863网页检索ICST评测报告 总被引:1,自引:0,他引:1
2005年863评测任务是在CWT100G这个90G的数据集上检索相关网页.评测给出了50个包含title、desc、narr的主题,要求根据这些主题自动和人工生成查询.ICST在这次评测中使用了倒排索引技术给数据集建索引,通过给多个查询调整权重和多个文档查询域调整权重的方法,综合给出网页的得分.2005年的评测结果显示,排在最前的一些网页大部分是相关网页,前10个结果的准确率超过了50%,召回率也达到了30%以上.评测结果也表明,手工选词生成查询的结果要优于自动生成的查询. 相似文献
3.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 相似文献
4.
词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。 相似文献
5.
6.
抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F1值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。 相似文献
7.
入侵检测系统数据集评测研究 总被引:10,自引:0,他引:10
入侵检测技术已经成为信息安全保障体系的重要组成部分。但是到目前为止,还没有广泛认同的入侵检测系统(IDS)评测标准,用户和研究人员对IDS和新的检测算法的有效性抱有疑问。解决这些问题的关键在于对IDS进行完善的评测。研究者对此提出了多种不同的IDS评测方案,如MIT Lincoln Lab提出的数据集评测和Neohapsis提出的OSEC(Open Security Evaluation Criteria)等。通过对评测结果的分析,能发现现有技术的不足,从而为IDS技术今后的研究提供指导。本文对MITLL提出的数据集评测方法进行了详细分析,阐述了数据集评测方法中的关键问题,并在MITLL研究的基础上,提出了相关改进方案,作为进一步的研究。 相似文献
8.
查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素.查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度.利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果.在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高. 相似文献
9.
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索: 把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论: NGBayes是一种抗噪音的中文网页分类方法。 相似文献
10.
11.
在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法。在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多。其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。 相似文献
12.
陶剑文 《计算机工程与应用》2007,43(15):163-165
受蚁群觅食行为仿生研究和蚁群系统模型理论所启发,提出了一种基于蚁群计算模型的分布、协作多主体(multi-agent)反应架构的自适应、可伸缩的Web搜索系统模型(MASAIR),其由大量智能主体组成,利用智能主体架构的优异特性,旨在从巨型超文档集合(Web)中自治地搜索特定主题的信息,从而为用户提供迅捷的信息检索服务。详细描述了MASAIR的计算模型及其算法,通过对标准Web文档集的检索仿真实验结果显示:该架构具有对环境改变的鲁棒性和对用户信息需求变更的自适应性。 相似文献
13.
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。 相似文献
14.
基于Web中文检索系统SEARCH2000的设计与实现 总被引:3,自引:0,他引:3
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。 相似文献
15.
16.
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签