首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
中文问句分类特征的研究   总被引:1,自引:0,他引:1  
针对"不同的问句分类特征对问句分类的影响不相同,提取和处理这些特征的时间复杂度也不相同"的问题,提取问题疑问词、核心关键词(疑问词的一二级依存词和问句中心语)的主要义原、核心关键词的首义原、问句主谓宾的主要义原、命名实体、名词单(复)数等六种分类特征,采用支持向量机分类算法,对事实疑问句进行不同特征组合的分类对比实验,发现采用词义消岐技术提取的主要义原不仅对分类的准确率影响明显,而且大幅降低特征向量的维数,减少了处理时间。  相似文献   

2.
针对中文文本自动分类算法的评估体系   总被引:1,自引:0,他引:1  
中文文本自动分类能够帮助人们更有效地利用不断膨胀的海量中文信息.现有中文文本自动分类算法基于不同原理,性能各异,适用于不同情况.对于分类算法的比较评估能够确定某个分类算法的适用环境和性能特征.目前缺乏针对中文文本自动分类算法的系统评估体系.本文将引入一个评估体系,并基于该体系实现一个开放的研究平台,得出若干已有中文文本自动分类算法的比较结果.  相似文献   

3.
基于增量式贝叶斯模型的中文问句分类研究   总被引:1,自引:0,他引:1  
固定训练集生成的分类器性能不理想且不能跟踪用户需求,为此,提出一种将增量式贝叶斯思想用于问句分类的方法。采用遗传算法选取最优特征子集优化分类器,从而避免训练集特征过分冗余,使分类器在学习过程中动态地扩大训练集并修改分类器参数。在对问句进行分类时,提取问句的疑问词、句法结构、疑问意向词和疑问意向词在知网的首项义原作为分类特征。为了验证增量式贝叶斯方法的有效性,从语料库中随机抽取不同规模的问句构成增量集,基于不同的增量集对同一测试集中的问句进行分类。实验结果表明,增量式贝叶斯分类器较朴素贝叶斯分类器有更高的分类精度,大类和小类的准确率分别达到90.2%和76.3%,在提高准确率的同时优化了运行效率。  相似文献   

4.
研究人员对网页分类进行大量富有成效的研究工作,截至目前与网页分类相关的研究主要集中于如何选择合适的分类特征、如何设计高效的分类算法这两个方面。从上述两个角度对当前网页分类技术的研究现状进行归纳和综述,以便后续研究人员能更好、更准确地把握网页分类的研究动态。  相似文献   

5.
特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。  相似文献   

6.
基于依存关系的问句理解与问句分类   总被引:1,自引:0,他引:1  
问句理解是问答系统的首要过程,问句分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问句类型有助于在文档中定位和抽取答案。问句分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问句分类机制。实验表明:支持向量机结合依存关系的特征抽取方法,获得了较高问句分类正确率。  相似文献   

7.
如何高效地文本分类是当前研究的一个热点。首先对文本分类概念及流程中的分词、特征提取和文本分类方法等相关技术及研究现状进行了介绍和阐述,然后分析了现有文本分类相关技术面临的挑战,最后对文本分类的发展趋势进行了总结。  相似文献   

8.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

10.
事件时序关系的研究在问答系统、信息抽取和文本自动摘要等自然语言处理领域起着重要的作用。首先借鉴英文的标注方法,将中文事件的时序关系分为4类,并给出了具体的标注方法。然后给出了一个中文时序关系的分类方法。最后,在标注语料库上测试了中文事件时序关系分类的性能,结果表明该方法优于规则方法。  相似文献   

11.
Question-answering (QA) models find answers to a given question. The necessity of automatically finding answers is increasing because it is very important and challenging from the large-scale QA data sets. In this paper, we deal with the QA pair matching approach in QA models, which finds the most relevant question and its recommended answer for a given question. Existing studies for the approach performed on the entire dataset or datasets within a category that the question writer manually specifies. In contrast, we aim to automatically find the category to which the question belongs by employing the text classification model and to find the answer corresponding to the question within the category. Due to the text classification model, we can effectively reduce the search space for finding the answers to a given question. Therefore, the proposed model improves the accuracy of the QA matching model and significantly reduces the model inference time. Furthermore, to improve the performance of finding similar sentences in each category, we present an ensemble embedding model for sentences, improving the performance compared to the individual embedding models. Using real-world QA data sets, we evaluate the performance of the proposed QA matching model. As a result, the accuracy of our final ensemble embedding model based on the text classification model is 81.18%, which outperforms the existing models by 9.81%∼14.16% point. Moreover, in terms of the model inference speed, our model is faster than the existing models by 2.61∼5.07 times due to the effective reduction of search spaces by the text classification model.  相似文献   

12.
汉语语料的自动分类   总被引:16,自引:3,他引:16  
语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展, 获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的, 在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念, 并利用不同类语料相关系数不同的特点进行分类, 取得了93%的大类分类正确率。  相似文献   

13.
句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注。最后,采用循环卷积神经网络对藏文句类进行了自动识别。实验表明,该模型对藏文句类识别有较为显著的效果。  相似文献   

14.
基于知网的中文问题自动分类   总被引:15,自引:1,他引:15  
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。  相似文献   

15.
随着网络搜索引擎技术的飞速发展,对于问答系统的需求愈发迫切。而问答系统处理问题的第一步就需要分辨情感问题和非情感问题并对情感问题进行分类。该文首先分析了当前问答系统和问题分类领域的研究现状,总结了一些存在的问题。然后针对情感问题从三个方面进行分类。在语义层面,提取了三个关键词;在语法层面,通过规则的制定,将其分成五种疑问句类型;在领域层面,通过搜索引擎的相关网页数量来进行判断。再对综合上述三个方面所开发出的测试系统进行分析。实验结果表明:对于情感问题的分类,从三个层面进行分析比较全面。  相似文献   

16.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

17.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。  相似文献   

18.
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在Fas...  相似文献   

19.
复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。非充盈态汉语复句存在隐式关系的特点给语义关系识别造成了困难。为了深度挖掘复句中隐含的语义信息,正确地实现关系分类,该文提出了一种基于句内注意力机制的多路CNN网络结构Inatt-MCNN。其中句内注意力机制模型是基于Bi-LSTM的,使其能够学习到句子的双向语义特征以及分句间的关联特征。同时,为了充分利用文本特征,联合使用卷积神经网络(CNN)对复句表示再次建模获得句子局部特征。与其他基于汉语复句语料库(CCCS)和清华汉语树库(TCT)的实验结果相比,该文方法的宏平均F1值为85.61%,提升约6.08%,平均召回率为84.87%,提升约3.05%。  相似文献   

20.
在“现代汉语句法语义信息语料库”的基础上,我们将相对独立的句型系统、句模系统和句干系统有机整合在一起,建立了一个有层级体系的句系系统。并将[P]、[SP]、[SPO]、[PO]定义为基础句型,利用解析法,考察了基础句型对应的高频句模在复杂句模生成机制中的主体作用,此外还考察了补语、状语同语义成分的对应情况。通过寻求简单句型和复杂句型、简单句模和复杂句模之间的组合映射规律,从而找到句型句模对应机制研究的一个新的突破点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号