首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于网络的中文问答系统及信息抽取算法研究   总被引:24,自引:3,他引:21  
问答系统(Question Answering System)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著,对测试问题集的MRR值达到0.51。  相似文献   

2.
为了提高答案抽取应用中定位候选答案的准确性,提出了一种基于依存语义检测的答案抽取应用系统(DIAES).该系统通过将句子的语义结构表示成基于依存语义关系的最小逻辑形式,并以此评价候选答案的语义结构相似度案,具有复杂度低、抽取精度高等优点.  相似文献   

3.
提出了一种基于高频词和共现词的文本主题词抽取方法。该方法充分考虑到文档的统计信息和语义信息, 通过对提问问题和答案库中答案的相似度计算排序, 输出候选答案。提出一种具体的应用模型, 分别从问题的分析、信息检索和答案抽取三个模块进行系统的设计, 具有一定的应用价值。  相似文献   

4.
基于模板法的网页英语试卷自动抽取技术的研究   总被引:1,自引:1,他引:0  
为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和提取速度。  相似文献   

5.
答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来调节各特征对答案抽取准确率计算的贡献。与其他方法相比,描述答案的信息更加全面,答案抽取更加准确。  相似文献   

6.
吴勇 《计算机时代》2011,(2):11-12,16
利用论坛的问题解答资源作为数据源建立了网络论坛问答检索系统,系统涉及到数据采集、数据处理、答案抽取、索引排序、问题映射等问题.重点研究了决定系统性能的答案抽取技术.在进行答案抽取时,使用Ranking SVM对回帖文档进行排序,得到问题对应的所有回帖的一个全序排列,进而抽取序列的前几项得到最佳答案.  相似文献   

7.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

8.
一种基于复杂网络特征的中文文档关键词抽取算法   总被引:5,自引:0,他引:5  
关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的"小世界"特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于TFIDF关键词抽取算法所获得的平均准确率.  相似文献   

9.
微博热点话题发现是目前的研究热点。针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法( TCMLPA)用于词共现网络的热词聚类,获得热点话题集。实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率。  相似文献   

10.
基于偏度的低空目标声信号盲抽取算法   总被引:1,自引:0,他引:1  
针对盲源分离信号顺序的不确定性以及基于峭度的盲抽取算法运算量大的问题,本文提出一种基于偏度的低空目标声信号盲抽取算法.该算法利用偏度的非对称性,将其作为信号非高斯性的度量,抽取出的信号可以按偏度绝对值的降序排列.与基于峭度的盲抽取算法相比,该算法大大减小了运算量,同时具有较好的分离效果,且对于噪声具有鲁棒性.声音信号及...  相似文献   

11.
问答系统旨在用准确、简洁的答案回答用户用自然语言提出的问题。以旅游信息服务为应用背景,提出了基于领域知识的问答对自动提取方法。考察了常见旅游问题,建立了领域知识,在此基础上,设计了用户问题模式匹配算法和答案提取算法,对于不能匹配模式的问题,采用句子相似度计算得到相关的答案。实验结果表明,提出的方法是可行的,实现了旅游问题的自动问答。  相似文献   

12.
基于无监督学习的问答模式抽取技术   总被引:4,自引:0,他引:4  
本文提出了一种基于无监督学习算法的问答模式抽取技术从互联网上抽取应用于汉语问答系统的答案模式。该算法可以避免有监督学习算法的不足,它无需用户提供<提问,答案>对作为训练集,只需用户提供每种提问类型两个或以上的提问实例,算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。实验结果表明,论文提出的无监督问答模式学习方法是有效的,基于模式匹配的答案抽取技术能够较大幅度地提高汉语问答系统的性能。  相似文献   

13.
基于问句相似度的中文FAQ问答系统   总被引:5,自引:0,他引:5  
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。  相似文献   

14.
针对阅读理解问答中的why型问题,提出基于问题话题和话题间因果修辞关系识别的答案句抽取方法.抽取时利用机器学习方法,选择可识别出对应问题话题的句子特征、问题话题与句子上下文之间因果关系特征,对篇章内的句子按照成为答案句的概率进行排序.对应问题话题的句子识别利用基于idf和语义角色的相似度;因果修辞关系的识别利用线索短语...  相似文献   

15.
句子相似度计算新方法及在问答系统中的应用   总被引:2,自引:0,他引:2  
计算句子的相似度在机器问答、机器翻译、文本分类等系统中有着非常重要的作用。该文对基于相同关键词的句子相似模型作了进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词以及近义词的情形。并以此为基础,实现了一个基于常问问题集的中文自动问答系统,对用户以自然语言输入的问题,该系统能够自动地在FAQ(Frequently-Asked Question)库中寻找候选问题集,通过计算句子相似度,将匹配的答案返回给用户。该系统还能够自动地更新和维护FAQ库。实验结果表明,这种新方法在问答系统中匹配问句时比其他方法具有较高的准确率。  相似文献   

16.
论述了《计算机操作系统》试题库系统的总体设计结构,系统采用B/S结构,应用ASP技术和采用Access数据库来构成试题库系统,使用ODBC技术连接后台数据库,并且给出了本系统的需求分析、系统结构图、系统各模块的功能,在数据库设计中用数据流图来表达数据和处理的关系,说明了每个数据库表的详细信息。系统在抽题算法上,采用了随机抽取与设置难度系数相结合的方式,这样可以使每个学生抽到的试题与其他学生不完全一样,并且试卷中各种难度试题数量的分布更加合理化、科学化,同时给出了详细的抽取算法。  相似文献   

17.
食品安全领域的智能问答系统旨在对用户通过自然语言进行的食品安全方面的提问做出快速、简洁的反馈,其技术挑战主要在于语义分析和答案句子表示,尤其是在于如何消除问答之间的词汇差距以加强问答匹配能力,以及如何抓取准确的核心单词以增强句子表示能力。尽管基于"短语级别"和众多的注意力模型已经取得了一定的性能提升,但基于注意力的框架都没有很好的重视位置信息。针对上述问题,运用词林和word2vec相结合的方法,提出近义词-主词替换机制(将普通词映射为核心词),实现了语义表示的归一化。同时,受位置上下文提升信息检索性能的启发,假设如果问句中的一个词(称之为问题词)出现在答案句中,问题词的临近词对比偏离词应该被给与更高的权重。基于上述假设,提出了基于双向lstm模型的位置注意力机制(BLSTM-PA)。上述机制给与答案句中问题词的临近文本更高的注意力。以食品安全问答系统为语义分析验证和仿真的平台,通过在食品安全领域数据集(即FS-QA)上进行的对比实验,从MAP和MRR评价指标来看,与基于传统的注意力机制的RNN模型相比,BLSTM-PA实现了5.96%的提升,证明了BLSTM-PA模型的良好性能,同时,集成了提出的问答模型的食品安全问答系统性能也得到了显著的提升。  相似文献   

18.
汉语句子相似度计算在FAQ中的应用   总被引:4,自引:3,他引:1       下载免费PDF全文
裴婧  包宏 《计算机工程》2009,35(17):46-48
通过对传统的汉语句子相似度模型进行改进,提出一种基于关键词加权的汉语句子相似度计算方法,在此基础上实现一个基于常问问题库的中文问答系统。该系统通过将用户输入的自然语言问句与常问问题库中的候选问题集进行相似度计算,自动返回最匹配的答案给用户,自动更新和维护常问问题库。实验结果表明该方法在问旬匹配上比传统方法具有更高的准确率。  相似文献   

19.
基于问句语料库的受限领域自动应答系统   总被引:3,自引:0,他引:3  
自动应答系统中对用户所提问句的理解是系统实现的关键,同样也是一个难点,通过在受限领域内建立问句语料库来协助理解用户问句是一种非常有效的实现方法。文章分析了建行领域业务咨询系统的问句收集、分词和词性标注、语义标注、问句语料统计等问句语料库的建设过程,并详细介绍了采用词向量空间法和语义向量空间法从问句语料库中寻找和目标问句相似问句的计算方法及提取答案的实现过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号