首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 120 毫秒
1.
杜永萍  叶乃文 《计算机工程》2008,34(17):186-187
问答式信息检索是新一代搜索引擎,集成自然语言处理和信息检索科学的研究成果,提高信息检索效率。该文介绍问答式信息检索中的模式优化及其应用,并进行客观评价。模式在问答式信息检索中有两个重要应用——查询扩展和答案抽取。实验结果表明,在TREC标准测试集上,采用模式匹配策略实现答案抽取,能有效地提高问答式信息检索系统的准确率。  相似文献   

2.
使用遗传算法的信息检索动态参数学习方法   总被引:4,自引:0,他引:4  
信息检索系统中的参数设定在很大程度上决定着系统的检索性能.参数的数据相关性和敏感性使得经验值往往不可靠.另一方面,由于在检索过程中缺乏当前查询的相关文档信息,因而不可能进行有指导的参数学习.因此,自动无指导的参数学习方法是极为必要和重要的.首先考察传统上根据经验值设定固定的系统参数的效果,结果表明其泛化能力差,效果不稳定且不可靠.其次,提出一种使用遗传算法进行动态参数学习的方法.在TREC11,TREC10和TREC9三组大规模Web标准测试数据集上进行了实验,数据集规模均超过10GB.实验结果表明,经过动态参数学习,系统性能总是能够接近甚至达到可能实现的最优性能.  相似文献   

3.
文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于“试错”的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。  相似文献   

4.
基于最大熵模型的QA系统置信度评分算法   总被引:1,自引:0,他引:1  
游斓  周雅倩  黄萱菁  吴立德 《软件学报》2005,16(8):1407-1414
置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度.描述了一种基于最大熵模型的算法.首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度.在2002年度的文本检索会议(TREC)中,QA系统用该算法计算每个问题答案的置信度,并依此排序,获得了显著的成绩.  相似文献   

5.
临床决策支持系统中,通常使用电子病历中的病人描述作为查询检索,进而辅助医生做决策分析.我们提出了一个基于注意力机制的网络扩展查询方法以提高检索效果.由于医学文本注释的难度和成本很高,并受到了迁移学习理念的启发,我们选择了非医学领域数据集学习句子与实体的关系,迁移到医学领域数据集,模型用LSTM获得句子表征并用注意力机制来获得实体表示.我们提出的方法可以动态选择相关实体作为查询扩展,同时我们不仅考虑单个实体作为扩展的影响,也考虑了实体组合作为扩展的影响,解决了选择固定数目实体的问题.我们在TREC Clinical Decision Support Track三个标准数据集上进行实验,实验表明本文提出的方法在实验结果上有显著的提升.  相似文献   

6.
本文提出了一种快速学习算法,它解决了Brill基于变换的学习方法中规则获取时间过长的问题.在每次迭代过程中,该算法仅需调整受到影响的小部分变换模式,而无需遍历所有变换模式,大大节省了学习时间.应用这一快速学习算法,以SUSANNE英语语料库作为训练文本,获得300条英语词性标注规则和生词处理的概率知识,实现了一个英语词性标注系统,系统封闭测试和开放测试的正确率分别达到了98.2%和96.6%.  相似文献   

7.
一种选择折叠计数状态转移的BIST方案   总被引:4,自引:0,他引:4  
提出了一种选择折叠计数状态转移的BIST方案。它是在基于折叠计数器的基础上,采用LFSR编码折叠计数器种子,并通过选定的存储折叠距离来控制确定的测试模式生成,使得产生的测试模式集与原测试集相等.既解决了测试集的压缩,又克服了不同种子所生成的测试模式之间的重叠、冗余.实验结果证明,建议的方案不仅具有较高的测试数据压缩率,而且能够非常有效地减少测试应用时间,平均测试应用时间仅仅是类似方案的4%.  相似文献   

8.
探讨了深海多金属结核集矿机在作业过程中的实时局部路径规划问题,旨在解决在深海复杂特殊环境下多金属结核集矿机的自适应实时路径规划问题。采用了能实现模糊控制规则的基于强化学习方法的自学习和自调整算法来实现深海集矿机的实时运动规划,并提出了能实现模糊控制规则的基于强化学习的自学习和自调整的规划算法。设计了深海集矿机实时运动规划器结构、规划器操作过程以及相应的算法。集矿机试验样机池试试验表明该方法的有效性.可广泛应用于类似路径规划问题。  相似文献   

9.
郭鑫  张庚  陈千  王素格 《计算机科学》2020,47(5):198-203
使机器理解人类自然语言是人工智能在认知领域的终极目标,机器阅读理解是自然语言处理技术中继语音识别、语义理解之后的一大挑战,要求计算机具有一定的背景常识,全面理解给定文本材料,并根据材料内容对相应的问题作答。随着深度学习的快速发展,阅读理解成为当前人工智能的热点研究方向,涉及机器学习、信息检索、语义计算等核心技术,在聊天机器人、问答系统、智能化教育等多个领域具有广泛的应用前景。文中聚焦微阅读模式,根据问题或选项从给定文本材料中抽取包含答案的候选句,缩小推理范围,为进一步实现机器阅读理解提供技术支持。传统基于特征的方法耗费大量人力,文中将答案候选句抽取看成一种语义相关度计算问题,提出了一种答案候选句排序方法,即Att-BiGRU/BiLSTM模型。首先,利用双向长短期记忆和门控循环单元来编码句子中表达的语义信息;其次,设计Atten结构,结合相异性和相似性对语义相关度进行建模;最后,采用Adam算法来学习模型的参数。在SemEval-SICK数据集上的实验结果显示,该模型在测试集上的pearson指标超过了基线方法BiGRU将近0.67,在MSE指标上超过BiGRU方法16.83%,收敛速度更快,表明双向和Atten结构能大大提高候选句抽取的精度。  相似文献   

10.
目前抽取式机器阅读理解已经取得了很好的成果。然而,许多研究工作表明,机器阅读理解模型在过敏感性、过稳定性等方面的鲁棒性还有待提高。为了解决该问题,提出了一种面向鲁棒性增强的多任务抽取式阅读理解模型,加强模型在篇章和问题2方面的理解能力。通过多任务学习方式,将答案抽取作为主要任务,证据句判断和问题分类作为辅助任务,实现编码器之间的信息共享。在鲁棒性测试集上的实验结果表明,所提模型对比基线模型有明显的性能提升。  相似文献   

11.
何建忠  吕振俊 《计算机工程》2008,34(17):56-58,6
针对传统数据挖掘算法的不足,提出基于两个矩阵的优化关联规则挖掘算法。该算法对事务数据库进行一次扫描,将其转换成两个用于存放逻辑数据的矩阵,并保留项目间的关联信息。对两个矩阵进行挖掘,基于矩阵MA得到频繁1-项集和频繁2-项集,基于矩阵MB得到最大频繁项集,其他频繁k-项集基于两个矩阵和已得频繁集获取。该算法极大减少了候选频繁集数量,挖掘过程采用逻辑运算。实验结果证明了其可行性和高效性。  相似文献   

12.
The World Wide Web (WWW) today is so vast that it has become more and more difficult to find answers to questions using standard search engines. Current search engines can return ranked lists of documents, but they do not deliver direct answers to the user. The goal of Open Domain Question Answering (QA) systems is to take a natural language question, understand the meaning of the question, and present a short answer as a response based on a repository of information. In this paper we present QARAB, a QA system that combines techniques from Information Retrieval and Natural Language Processing. This combination enables domain independence. The system takes natural language questions expressed in the Arabic language and attempts to provide short answers in Arabic. To do so, it attempts to discover what the user wants by analyzing the question and a variety of candidate answers from a linguistic point of view.  相似文献   

13.
基于句法结构特征分析及分类技术的答案提取算法   总被引:1,自引:0,他引:1  
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%.  相似文献   

14.
基于自动问答系统的信息检索技术研究进展   总被引:2,自引:0,他引:2  
汤庸  林鹭贤  罗烨敏  潘炎 《计算机应用》2008,28(11):2745-2748
自动问答是根据用户以自然语言提出的问题给出一个明确的答案。近年来,自动问答越来越受到信息检索和自然语言处理的研究者的关注。典型的自动问答系统通常包含问题分析、文段检索和答案选择等部件。介绍了自动问答的最新研究进展和相关国际会议情况,着重阐述问题分类、查询扩展、文段检索和答案选择这四个热点技术的主要功能和常用方法,最后提出存在的一些问题和展望。  相似文献   

15.
王慧芝  安玉朋 《微机发展》2006,16(11):136-139
与传统的搜索引擎相比,自动问答系统支持自然语言提问,返回给用户一个简短而准确的答案,是自然语言处理领域的一个研究热点。文中介绍了一种基于常见问题库的多搜索引擎自动问答系统,它利用常见问题库和两大搜索引擎,快速准确地回答用户的问题,更加智能化地满足用户的检索需求。  相似文献   

16.
问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和CRF模型相结合的方法识别问句中的主体;其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链接;然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联;最后,进行实体消歧和答案获取。该系统平均F-Measure值为0.695 6,表明所提方法在基于知识库的开放领域问答上具有可行性。  相似文献   

17.
一种基于形式概念分析的问答系统答案抽取的研究   总被引:3,自引:0,他引:3  
为了在问答系统中尝试回答更加复杂的问题,有必要存在一种原理性的方法来动态产生不同的问答策略。提出在问答系统中使用形式概念分析(FCA)来抽取答案。在抽取过程中,首先在常问问题集(FAQs)中寻找已经存在的问题,如果在FAQs中的答案不满足用户的需求,再通过搜索引擎获取相关的文档。接着利用这些文档中前N个文档构建概念格,进而采用概念匹配在格中抽取答案。对于不同的问题,使用不同的策略进行匹配和抽取答案。  相似文献   

18.
In this paper we present a statistical approach to question answering (QA). Our motivation is to build robust systems for many languages without the need for highly tuned linguistic modules. Consequently, word tokens and web data are used extensively but neither explicit linguistic knowledge nor annotated data is incorporated. A mathematical model for answer retrieval and answer classification is derived. Experiments are conducted by searching for answers in the AQUAINT corpus, as well as in web data. The redundancy inherent in web data outperforms retrieval from a fixed corpus, where there are typically relatively few answer occurrences for any given question. We participated with an implementation of this framework in the TREC 2006 QA evaluations, where we ranked 9th among 27 participants on the factoid task.  相似文献   

19.
Question answering (QA) is a relatively new area of research. We took the approach of designing a question answering system that is based on question classification and document tagging. Question classification extracts useful information from the question about how to answer the question. Document tagging extracts useful information from the documents, which are used to find the answer to the question. We used different available systems to tag the documents. Our system classifies the questions using manually developed rules. An evaluation of the system is performed using Text REtrieval Conference (TREC) data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号