首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
实体消歧和谓词匹配是中文知识库问答系统(CKBQA)中的两个核心任务。针对开放域知识库中实体和谓词数量巨大,且中文问句与知识库知识在表现形式上存在差异的问题,提出一种基于特征增强的BERT的流水线式问答系统(BERT-CKBQA),改进了上述两个子任务。采用BERT-CRF模型识别问句中提及的实体,得到候选实体集合。将问题和拼接谓词特征的候选实体输入BERT-CNN模型进行实体消歧。根据实体生成候选谓词集合,提出通过注意力机制引入答案实体谓词特征的BERT-BiLSTM-CNN模型进行谓词匹配。结合实体和谓词的得分确定查询路径来检索最终答案。该方法设计了一个中文简单问题的开放域知识库问答系统,引入预训练模型与谓词特征增强子任务特征以提升其性能,并在NLPCC-ICCPOL-2016KBQA 数据集上取得了88.75%的平均F1值,提高了系统的回答准确率。  相似文献   

2.
张俊驰  胡婕  刘梦赤 《计算机应用》2016,36(5):1290-1295
针对传统以句法分析为主的数据库自然语言接口系统识别用户语义准确率不高,且需要大量人工标注训练语料的问题,提出了一种基于复述的中文自然语言接口(NLIDB)实现方法。首先提取用户语句中表征数据库实体词,建立候选树集及对应的形式化自然语言表达;其次由网络问答语料训练得到的复述分类器筛选出语义最相近的表达;最后将相应的候选树转换为结构化查询语句(SQL)。实验表明该方法在美国地理问答语料(GeoQueries880)、餐饮问答语料(RestQueries250)上的F1值分别达到83.4%、90%,均优于句法分析方法。通过对比实验结果发现基于复述方法的数据库自然语言接口系统能更好地处理用户与数据库的语义鸿沟问题。  相似文献   

3.
高考语文阅读理解问答相对普通阅读理解问答难度更大,同时高考问答任务中的训练数据较少,目前的深度学习方法不能取得良好的答题效果。针对这些问题,该文提出融合BERT语义表示的高考阅读理解答案候选句抽取方法。首先,采用改进的MMR算法对段落进行筛选;其次,运用微调之后的BERT模型对句子进行语义表示;再次,通过SoftMax分类器对答案候选句进行抽取,最后利用PageRank排序算法对输出结果进行二次排序。该方法在北京近十年高考语文阅读理解问答题上的召回率和准确率分别达到了61.2%和50.1%,验证了该方法的有效性。  相似文献   

4.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

5.
知识共享型网站为自动问答系统带来了新的研究契机。但用户提供的问题及其答案质量参差不齐,在提供有用信息的同时可能包含各种无关甚至恶意的信息。对此类信息进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。首先从中文社区问答网站上抓取大量问题及答案,利用社会网络的方法对提问者和回答者的互动关系及特点进行了统计与分析。然后基于给定的问答质量判定标准,对3000多个问题及其答案进行了人工标注。并通过提取文本和非文本两类特征集,利用机器学习算法设计和实现了基于特征集的问答质量分类器。试验结果表明其精度和召回率均在70%以上。最后分析了影响社区网络中问答质量的主要因素。  相似文献   

6.
基于句法和语义信息的问句特征提取方法   总被引:1,自引:0,他引:1  
许莉  王大玲  夏秀峰 《计算机工程》2010,36(21):65-66,70
在分析当前中文问答系统中问句分析技术的基础上,提出一种基于句法结构和语义信息的问题特征提取方法。利用依存句法分析出问句的主干,从语义信息角度分析问句主干从而提取出问句的特征词,并用改进贝叶斯算法进行问题分类。实验证明,该特征提取方法能提高问题分类的准确性。  相似文献   

7.
针对中文问题分类方法中布尔模型提取特征信息损失较大的问题,提出了一种新的特征权重计算方法。在提取问题特征时,通过把信息熵算法和医院本体概念模型结合在一起,进行问题的特征模型计算,在此基础上使用支持向量机方法进行中文问题分类。在城域医院问答系统的中文问题集上进行实验,证明了该方法的有效性,大类准确率及小类准确率分别达到89.0%和87.1%,取得了较好的效果。  相似文献   

8.
Viola和Jones的人脸检测方法在分类器训练后期,基于Haar-like特征的弱分类器分类能力变弱.针对此问题,提出一种基于Adaboost的分层特征空间的人脸检测方法.该方法让弱分类器在局部和全局特征空间中进行训练,增强弱分类器的分类性能.实验表明,本文方法提高系统的正确检测率,降低错误报警数,与当前人脸检测系统相比性能更优越.  相似文献   

9.
左心室检测在计算机辅助心脏MR图像诊断方面具有重要价值,针对由于成像质量、部分容积效应、目标复杂多变等因素影响,导致左心室自动检测准确度较低的问题,提出一种融合候选区域提取与栈式稀疏自编码器(SSAE)深度特征学习的心脏MR图像左心室检测方法.在候选区域提取阶段,先用超像素算法产生初始区域,然后对SSAE学习到的深度特征采用层次聚类算法生成候选区域;在检测阶段,先使用SSAE提取候选区域的深度特征,然后训练SVM分类器对候选区域进行分类,并使用难分负样本挖掘算法对模型进行调节.对心脏图谱数据集左心室目标检测的实验结果表明,相对于手工特征及基于候选区域等方法,该方法取得了有竞争力的检测精度.  相似文献   

10.
针对自动问答系统,介绍如何用事例推理模型(CBR)来解决中文自动问答问题。提出了范例文档库的表示结构,关键词的抽取方法,候选答案集的检索策略,最终答案的抽取算法,以及对答案的修正方法等。通过理论和实验分析表明,该模型运用在自动问答系统领域是可行的和具有广大的发展空间的。  相似文献   

11.
基于网络的中文问答系统及信息抽取算法研究   总被引:24,自引:3,他引:21  
问答系统(Question Answering System)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著,对测试问题集的MRR值达到0.51。  相似文献   

12.
Question Answering (QA) is undoubtedly a growing field of current research in Artificial Intelligence. Question classification, a QA subtask, aims to associate a category to each question, typically representing the semantic class of its answer. This step is of major importance in the QA process, since it is the basis of several key decisions. For instance, classification helps reducing the number of possible answer candidates, as only answers matching the question category should be taken into account. This paper presents and evaluates a rule-based question classifier that partially founds its performance in the detection of the question headword and in its mapping into the target category through the use of WordNet. Moreover, we use the rule-based classifier as a features’ provider of a machine learning-based question classifier. A detailed analysis of the rule-base contribution is presented. Despite using a very compact feature space, state of the art results are obtained.  相似文献   

13.
In this paper we present a statistical approach to question answering (QA). Our motivation is to build robust systems for many languages without the need for highly tuned linguistic modules. Consequently, word tokens and web data are used extensively but neither explicit linguistic knowledge nor annotated data is incorporated. A mathematical model for answer retrieval and answer classification is derived. Experiments are conducted by searching for answers in the AQUAINT corpus, as well as in web data. The redundancy inherent in web data outperforms retrieval from a fixed corpus, where there are typically relatively few answer occurrences for any given question. We participated with an implementation of this framework in the TREC 2006 QA evaluations, where we ranked 9th among 27 participants on the factoid task.  相似文献   

14.
相对于普通阅读理解,高考语文阅读理解难度更大,问句更加抽象,答案候选句的抽取除了注重与问句的相似性分析,还注重对材料内容以及作者的观点的概括归纳。因此该文提出了利用汉语框架网(Chinese FrameNet)抽取与问句语义相似的候选句的方法,通过识别篇章主题(段落主题句和作者观点句),生成与问句相关的内容要点以及作者的观点态度,最终选取top 6作为答案句。在近12年北京市高考真题上进行测试,召回率达到了68.69%,验证了该方法的有效性。  相似文献   

15.
提出了一种基于Adaboost算法的场景中文文本定位的新方法。首先利用边缘特征进行文本区域的检测,即对数字图像进行边缘提取、二值化处理,然后通过连通域分析去除明显的非字符连通域,并获得候选的文本区域。对场景中文文本区域进行分析,提取了场景中文文本的4类特征,并利用这4类特征经过分类与回归决策树构造了Adaboost强分类器。将候选文本区域送入强分类器,得到正确的文本区域。实验结果表明方法不仅对场景文本图像中字体、大小和颜色多变的文本具有很好的定位效果,而且具有很高的召回率和准确率。  相似文献   

16.
The research related to age estimation using face images has become increasingly important, due to the fact it has a variety of potentially useful applications. An age estimation system is generally composed of aging feature extraction and feature classification; both of which are important in order to improve the performance. For the aging feature extraction, the hybrid features, which are a combination of global and local features, have received a great deal of attention, because this method can compensate for defects found in individual global and local features. As for feature classification, the hierarchical classifier, which is composed of an age group classification (e.g. the class of less than 20 years old, the class of 20-39 years old, etc.) and a detailed age estimation (e.g. 17, 23 years old, etc.), provide a much better performance than other methods. However, both the hybrid features and hierarchical classifier methods have only been studied independently and no research combining them has yet been conducted in the previous works. Consequently, we propose a new age estimation method using a hierarchical classifier method based on both global and local facial features. Our research is novel in the following three ways, compared to the previous works. Firstly, age estimation accuracy is greatly improved through a combination of the proposed hybrid features and the hierarchical classifier. Secondly, new local feature extraction methods are proposed in order to improve the performance of the hybrid features. The wrinkle feature is extracted using a set of region specific Gabor filters, each of which is designed based on the regional direction of the wrinkles, and the skin feature is extracted using a local binary pattern (LBP), capable of extracting the detailed textures of skin. Thirdly, the improved hierarchical classifier is based on a support vector machine (SVM) and a support vector regression (SVR). To reduce the error propagation of the hierarchical classifier, each age group classifier is designed so that the age range to be estimated is overlapped by consideration of false acceptance error (FAE) and false rejection error (FRE) of each classifier. The experimental results showed that the performance of the proposed method was superior to that of the previous methods when using the BERC, PAL and FG-Net aging databases.  相似文献   

17.
何建忠  吕振俊 《计算机工程》2008,34(17):56-58,6
针对传统数据挖掘算法的不足,提出基于两个矩阵的优化关联规则挖掘算法。该算法对事务数据库进行一次扫描,将其转换成两个用于存放逻辑数据的矩阵,并保留项目间的关联信息。对两个矩阵进行挖掘,基于矩阵MA得到频繁1-项集和频繁2-项集,基于矩阵MB得到最大频繁项集,其他频繁k-项集基于两个矩阵和已得频繁集获取。该算法极大减少了候选频繁集数量,挖掘过程采用逻辑运算。实验结果证明了其可行性和高效性。  相似文献   

18.
杜永萍  叶乃文 《计算机工程》2008,34(17):186-187
问答式信息检索是新一代搜索引擎,集成自然语言处理和信息检索科学的研究成果,提高信息检索效率。该文介绍问答式信息检索中的模式优化及其应用,并进行客观评价。模式在问答式信息检索中有两个重要应用——查询扩展和答案抽取。实验结果表明,在TREC标准测试集上,采用模式匹配策略实现答案抽取,能有效地提高问答式信息检索系统的准确率。  相似文献   

19.
近年来,随着互联网的普及和知识爆炸性的增长,社区问答网站积累了大量的用户和内容,同时也产生了大量的低质量文本,极大地影响了用户检索满意答案的效率,因此如何提升答案质量预测的性能十分重要。目前,社区问答答案质量预测方面的研究大都是使用点方式(pointwise)来实现分类模型,但由于问题的难度不同,对答案的要求也有所差异,使用点方式会忽略掉部分答案的特点,所以该文使用点对方式(pairwise)来预测答案质量。另外,已有的研究工作表明,社区问答中同一问题下的答案数量特征对答案质量预测没有效果,甚至有冗余作用。对于时间差也有相同的结论,即不能提升预测性能。该文提出了一种将上述两者结合在一起的新特征,实验结果表明,该特征能显著提高社区问答答案质量预测的性能。  相似文献   

20.
基于互联网和self-training的中文问答模式学习   总被引:1,自引:0,他引:1  
在已有的问答模式学习中,模式定义和候选答案评分偏于简单,而且学习过程依赖于人工标定语料。通过挖掘Web文本中动、名词序列的骨架模式,用以扩充模式定义;将self-training学习机制引入问答模式学习:用一对训练语料进行初始学习,通过互联网搜索,自动选择可靠程度较高的问答对,重新训练;扩充了启发规则,改进候选答案的评分方法。实验结果表明:所提出的问答模式学习方法能有效地提高中文问答系统的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号