首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
目前,关于问答的大部分研究都是面向正式文本的问答对。然而,与以往研究不同的是,该文关注于社会媒体上存在的非正式文本问答对。非正式文本会存在问题文本里包含多个问题以及回答文本里包含多个回答的情况。针对该情况,我们提出了一个新的任务: 问答配对,即对问题文本的每个问题,从答案文本中找到和该问题相关的句子。首先,我们从产品问答网站上收集了大规模非正式文本问答对,并在此基础上创建了一个产品问答配对语料库。其次,为了解决非正式文本中存在的噪声问题,提出了一种基于注意力机制的上下文相关的问答配对方法。实验结果表明,该文提出的方法能有效地提升非正式文本的问答配对的性能。  相似文献   

2.
情绪分类是自然语言处理问题中的重要研究问题之一。情绪分类旨在对文本包含的情绪进行自动分类,该任务是情感分析的一项基本任务。然而,已有的研究都假设各情绪类别的样本数量平衡,这与实际情况并不相符合。该文的研究主要面向不平衡数据的情绪分类任务。具体而言,该文提出了一种基于多通道LSTM神经网络的方法来解决不平衡情绪分类问题。首先,该方法使用欠采样方法获取多组平衡训练语料;其次,使用每一组训练语料学习一个LSTM模型;最后,通过融合多个LSTM模型,获得最终分类结果。实验结果表明该方法明显优于传统的不平衡分类方法。  相似文献   

3.
面向问答型评论的情感分类在情感分析领域是一项新颖且极具挑战性的研究任务。由于问答型评论情感分类标注数据非常匮乏,基于监督学习的情感分类方法的性能有一定限制。为了解决上述困境,该文提出了一种基于联合学习的问答情感分类方法。该方法通过大量自然标注普通评论辅助问答情感分类任务,将问答情感分类作为主任务,将普通评论情感分类作为辅助任务。具体而言,首先通过主任务模型单独学习问答型评论的情感信息;其次,使用问答型评论和普通评论共同训练辅助任务模型,以获取问答型评论的辅助情感信息;最后通过联合学习同时学习和更新主任务模型及辅助任务模型的参数。实验结果表明,基于联合学习的问答情感分类方法能较好融合问答型评论和普通评论的情感信息,大幅提升问答情感分类任务的性能。  相似文献   

4.
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法.针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持向量机实现可疑人员情报研判.实验验证了该方法的可行性,其研判精确率达到98.8%,满足实际研判任务要求的标准,为情报人员提供了高质量的研判参考.  相似文献   

5.
文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。  相似文献   

6.
比较文本对于企业竞争产品分析至关重要,但目前面向问答领域的比较文本分类研究较少。针对问答文本中比较信息丰富、主题集中的特点,提出了基于主题特征和关键词特征扩展的比较文本分类方法。通过预训练主题模型,推断问答文本的主题概率分布作为其主题特征;针对向量拼接、求和导致关键词信息流失的问题,设计GRU自编码器实现关键词向量特征提取。综合文本主题信息和关键词语义,从语言、产品、情感、社交、主题、关键词角度构建比较文本分类特征,最后使用多种分类器对问答文本进行分类。实验结果表明,构建的特征行之有效,比较文本分类效果较好。  相似文献   

7.
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。  相似文献   

8.
利用聚类和粗糙集进行文本分类研究   总被引:4,自引:0,他引:4  
文本信息是人们所接触到的最主要的信息表示方式,对文本信息高效管理是文本分类研究的重要内容之一。该文在空间向量模型的基础上将文本聚类和粗糙集理论的属性约简相结合,提出了一种新的文本分类方法,实验表明该方法可提高文本分类效率。  相似文献   

9.
问题分类是问答系统研究的一项基本任务。先前的研究仅仅是在单语语料上训练得到问题分类模型,存在语料不足和问题文本较短的问题。为了解决这些问题,该文提出了融合双语语料的双通道LSTM问题分类方法。首先,利用翻译语料分别扩充中文和英文语料;其次,将两种语言语料中的样本都分别用问题文本和翻译文本表示;最后,提出了双通道LSTM分类方法用于充分利用这两组特征,构建问题分类器。实验结果表明,该文提出的方法能有效提高问题分类的性能。  相似文献   

10.
陈可佳  费子阳  陈景强  杨子农 《软件学报》2022,33(12):4668-4687
文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.  相似文献   

11.
Question-answering (QA) models find answers to a given question. The necessity of automatically finding answers is increasing because it is very important and challenging from the large-scale QA data sets. In this paper, we deal with the QA pair matching approach in QA models, which finds the most relevant question and its recommended answer for a given question. Existing studies for the approach performed on the entire dataset or datasets within a category that the question writer manually specifies. In contrast, we aim to automatically find the category to which the question belongs by employing the text classification model and to find the answer corresponding to the question within the category. Due to the text classification model, we can effectively reduce the search space for finding the answers to a given question. Therefore, the proposed model improves the accuracy of the QA matching model and significantly reduces the model inference time. Furthermore, to improve the performance of finding similar sentences in each category, we present an ensemble embedding model for sentences, improving the performance compared to the individual embedding models. Using real-world QA data sets, we evaluate the performance of the proposed QA matching model. As a result, the accuracy of our final ensemble embedding model based on the text classification model is 81.18%, which outperforms the existing models by 9.81%∼14.16% point. Moreover, in terms of the model inference speed, our model is faster than the existing models by 2.61∼5.07 times due to the effective reduction of search spaces by the text classification model.  相似文献   

12.
林锋  周雅倩  黄萱菁  吴立德 《自动化学报》2008,34(11):1410-1416
描述了一种新的计算问题与支持答案句相似度的方法, 即基于依赖关系三元组匹配的方法. 该方法引入了问题中的疑问性和非疑问性部分的信息, 采用了启发式规则扩展问题的依赖关系三元组, 从而匹配变形的答案句. 同时把问题与支持答案句的相似度作为新的特征, 应用于开放领域的问题回答(Question answering, QA)任务中的答案排序. 实验结果表明, 引入新特征的答案排序方法与通常的基于密度的方法相比, 在相对精度指标上提高了8.2%, 在平均排序倒数(Mean reciprocal rank, MRR)评价上提高了8%.  相似文献   

13.
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.  相似文献   

14.
文本分类是自然语言处理中一个经典的研究方向,在信息处理中扮演着重要的角色。目前深度学习已经在图像识别、机器翻译等领域取得了突破性的进展,而且它也被证明在自然语言处理任务中拥有着提取句子或文本更高层次表示的能力。本文提出一种新颖的深度学习混合模型Attention-based C-GRU用于文本分类,该模型结合CNN中的卷积层和GRU,通过引入Attention机制,突出关键词和优化特征提取过程。利用该模型去学习文本语义并且在主题分类、问题分类及情感分类等任务上对其做出评估。通过与对比模型和表现最优方法做比较,表明本文模型的有效性。  相似文献   

15.
基于句法结构特征分析及分类技术的答案提取算法   总被引:1,自引:0,他引:1  
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%.  相似文献   

16.

The question answer (QA) system for a reading comprehension task tries to answer the question by retrieving the needed phrase from the given content. Precise answering is the key role of a QA system. An ambiguity is developed when we need to answer a negative question with a positive reply. The negation words change the polarity of the sentence, and hence, the scope of negation words is notable. This has paved the way for studying the role of ‘negation’ in the natural language processing (NLP) task. The handling of these words is considered a major part of our proposed methodology. In this paper, we propose an algorithm to retrieve and replace the negation words present in the content and query. A comparative study is done for performing word embedding over these words using various state-of-the-art methods. In earlier works when handling the negation the semantics of the sentences are changed. Hence, in this paper we try to maintain the semantics through our proposed methodology. The updated content is embedded into the bi-directional long short-term memory (Bi-LSTM) and thus makes the retrieving of an answer for a question answer system easier. The proposed work has been carried over the Stanford Negation, and the SQuAD dataset with a higher precision value of 96.2% has been achieved in retrieving the answers that are given in the dataset.

  相似文献   

17.
问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和CRF模型相结合的方法识别问句中的主体;其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链接;然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联;最后,进行实体消歧和答案获取。该系统平均F-Measure值为0.695 6,表明所提方法在基于知识库的开放领域问答上具有可行性。  相似文献   

18.
In this paper we present a statistical approach to question answering (QA). Our motivation is to build robust systems for many languages without the need for highly tuned linguistic modules. Consequently, word tokens and web data are used extensively but neither explicit linguistic knowledge nor annotated data is incorporated. A mathematical model for answer retrieval and answer classification is derived. Experiments are conducted by searching for answers in the AQUAINT corpus, as well as in web data. The redundancy inherent in web data outperforms retrieval from a fixed corpus, where there are typically relatively few answer occurrences for any given question. We participated with an implementation of this framework in the TREC 2006 QA evaluations, where we ranked 9th among 27 participants on the factoid task.  相似文献   

19.
Question answering (QA) is a relatively new area of research. We took the approach of designing a question answering system that is based on question classification and document tagging. Question classification extracts useful information from the question about how to answer the question. Document tagging extracts useful information from the documents, which are used to find the answer to the question. We used different available systems to tag the documents. Our system classifies the questions using manually developed rules. An evaluation of the system is performed using Text REtrieval Conference (TREC) data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号