首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 796 毫秒
1.
2005年度863信息检索评测方法研究和实施   总被引:1,自引:0,他引:1  
本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足.  相似文献   

2.
2005年863网页检索ICST评测报告   总被引:1,自引:0,他引:1  
2005年863评测任务是在CWT100G这个90G的数据集上检索相关网页.评测给出了50个包含title、desc、narr的主题,要求根据这些主题自动和人工生成查询.ICST在这次评测中使用了倒排索引技术给数据集建索引,通过给多个查询调整权重和多个文档查询域调整权重的方法,综合给出网页的得分.2005年的评测结果显示,排在最前的一些网页大部分是相关网页,前10个结果的准确率超过了50%,召回率也达到了30%以上.评测结果也表明,手工选词生成查询的结果要优于自动生成的查询.  相似文献   

3.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

4.
词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。  相似文献   

5.
自然语言转为SQL (NL2SQL)的研究有较高的应用价值, 随着深度学习技术的成熟, 越来越多的研究者开始将深度学习技术应用于NL2SQL任务中. 本文梳理了英文和中文领域NL2SQL的研究现状, 总结按年份发布的数据集和模型, 对比当前4大中文NL2SQL数据集的特点, 阐述了当前基于深度学习的NL2SQL任务的基本框架以及针对中文领域的单表简单问题和跨表复杂问题所适用的典型模型, 介绍了一般常用的模型评测方法, 并提出未来研究方向的展望.  相似文献   

6.
抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F1值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。  相似文献   

7.
入侵检测系统数据集评测研究   总被引:10,自引:0,他引:10  
入侵检测技术已经成为信息安全保障体系的重要组成部分。但是到目前为止,还没有广泛认同的入侵检测系统(IDS)评测标准,用户和研究人员对IDS和新的检测算法的有效性抱有疑问。解决这些问题的关键在于对IDS进行完善的评测。研究者对此提出了多种不同的IDS评测方案,如MIT Lincoln Lab提出的数据集评测和Neohapsis提出的OSEC(Open Security Evaluation Criteria)等。通过对评测结果的分析,能发现现有技术的不足,从而为IDS技术今后的研究提供指导。本文对MITLL提出的数据集评测方法进行了详细分析,阐述了数据集评测方法中的关键问题,并在MITLL研究的基础上,提出了相关改进方案,作为进一步的研究。  相似文献   

8.
查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素.查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度.利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果.在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高.  相似文献   

9.
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索: 把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论: NGBayes是一种抗噪音的中文网页分类方法。  相似文献   

10.
本文主要介绍我们参加863信息检索评测的情况.我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术.文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以及今后改进的方向.  相似文献   

11.
在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法。在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多。其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。  相似文献   

12.
受蚁群觅食行为仿生研究和蚁群系统模型理论所启发,提出了一种基于蚁群计算模型的分布、协作多主体(multi-agent)反应架构的自适应、可伸缩的Web搜索系统模型(MASAIR),其由大量智能主体组成,利用智能主体架构的优异特性,旨在从巨型超文档集合(Web)中自治地搜索特定主题的信息,从而为用户提供迅捷的信息检索服务。详细描述了MASAIR的计算模型及其算法,通过对标准Web文档集的检索仿真实验结果显示:该架构具有对环境改变的鲁棒性和对用户信息需求变更的自适应性。  相似文献   

13.
周秀梅  黄名选 《计算机应用》2014,34(10):2820-2826
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。  相似文献   

14.
基于Web中文检索系统SEARCH2000的设计与实现   总被引:3,自引:0,他引:3  
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。  相似文献   

15.
李晓婷  张磊  沈建京 《计算机工程》2008,34(15):83-84,8
在网络信息时代,传统的统计预测方法已经不完全适用,而对特定领域的信息采集和统计的需求日趋明显,使有效定向采集和统计特定领域信息并得到其相应的预测结果成为一个日益重要的研究方向。该文通过运用汉语分词、潜在语义分析和语义匹配等技术,构造了用户兴趣模型,并同时使用了面向服务的体系结构来设计该Web信息采集统计服务,通过具体的实验验证了对Web信息结构分析和未知信息相关性预测来控制信息采集统计的效果。  相似文献   

16.
基于网页框架和规则的网页噪音去除方法   总被引:4,自引:0,他引:4       下载免费PDF全文
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签


等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。  相似文献   


17.
DF还是IDF?主特征模型在Web信息检索中的使用   总被引:11,自引:0,他引:11  
张敏  马少平  宋睿华 《软件学报》2005,16(5):1012-1020
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善.  相似文献   

18.
Recently, the performance of Java platforms has been greatly improved to satisfy the requirements for game development. However, the rendering performance of Java 1.1, which is still used by about one‐third of current Web browser users, is not sufficient for high‐profile games. Therefore, practically, Java game developers, especially those who use applets, have to take this into consideration in most environments. In order to solve the above problems, this paper proposes a portable window toolkit architecture called the CYC Window Toolkit (CWT) with the ability to: (1) reach high rendering performance particularly in Java 1.1 applications and applets when using DirectX to render widgets in CWT; (2) support AWT/Swing compatible widgets, so hence the CWT can be easily applied to existing Java games; (3) define a general architecture that supports multiple graphics libraries such as AWT, DirectX and OpenGL, multiple virtual machines such as Java VM and .NET CLR, and multiple operating systems (OSs) such as Microsoft Windows, Mac OS and UNIX‐based OSs; (4) provide programmers with one‐to‐one mapping APIs to directly manipulate DirectX objects and other game‐related properties. The CWT has also been applied to an online Java game system to demonstrate the proposed architecture. Copyright © 2006 John Wiley & Sons, Ltd.  相似文献   

19.
中文文本情感分析研究综述   总被引:3,自引:0,他引:3  
对中文文本情感分析的研究进行了综述。将情感分类划分为信息抽取和情感识别两类任务,并分别介绍了各自的研究进展;总结了情感分析的应用现状,最后提出了存在的问题及不足。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号