首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
方面级情感分析是情感分析领域的一项关键任务,其目的是分析目标文本中各个方面的情感极性.句法依存树曾被广泛用于方面级情感分析任务中,目前的特征提取和交互方式仅限单一特征级,未能充分利用句法依存树上的有效信息.针对该问题,提出了一种基于句法依存树的多级特征提取算法来建立方面级情感分析模型.首先利用深度优先搜索得出句子的浅层特征表示,然后通过划分子图改进传统图卷积神经网络的建模方式来提取句子的深层特征表示,最终融合多级特征的句子表示并进行情感分类.在4个开放数据集上分类准确率都取得1.64%~2.12%的提升,F1值取得2.24%~4.97%的提升.实验结果表明基于该方法建模能获取更充分的多层句法特征信息、有效提高分类效果.  相似文献   

2.
针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将依存句法单特征与融合特征进行韵律层级预测实验对比,选取最优的依存特征组合与浅层语法特征相结合,利用决策树C4.5算法实现韵律结构层级的预测。经过大量的语料训练和测试结果表明,依存信息融合特征相比依存句法单特征整体韵律层级的预测准确率均有所提升,相对于浅层语法特征,韵律词和韵律短语的预测准确率分别提高了5.8%和15.4%。  相似文献   

3.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。  相似文献   

4.
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling, IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述. IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory, LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS (BLEU-1-DS), B4-DS (BLEU-4-D...  相似文献   

5.
句子相似度计算是自然语言处理的重要研究内容。运用自然语言处理的概念层次网络(HNC)理论和依存句法理论提出一种句子相似度的计算方法。该方法认为句子的相似度是由词语的语义相似度和句法结构相似度共同决定的,利用HNC理论词汇层面联想的概念表述体系来计算词语之间的相似度,利用依存句法理论来获取句子中词语的词语搭配和构成特征,与现有典型的句子相似度算法和人工判断进行了比较。实验结果表明,该方法能够较好地反应句子之间的语义差别,是一种可行有效的方法。  相似文献   

6.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

7.
句法与词义相结合的中文代词消解   总被引:1,自引:0,他引:1  
句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的支配词之间的词义相似和词语相关特征,采用支持向量机作为分类器,在ACE2005语料上的实验证明了这些特征的有效性。  相似文献   

8.
方面级情感分析是一种细粒度文本情感分析技术,可以判断文本目标方面的情感倾向,被广泛应用于商品评价、教育评价等领域,可以辅助用户更全面地了解实体属性并做出精准决策。但是现有方面级情感分析技术大多存在文本句法依存关系特征以及外部知识特征提取不充分的问题,为此,利用图卷积神经网络可以处理异构数据的特点,构建一种语义增强的方面级文本情感分析模型。将文本的词嵌入向量输入双向门控循环神经网络以提取文本和目标方面词的上下文语义信息,依据句法依存关系类型构建加权句法依存图,根据文本单词和外部知识库构建知识子图,使用图卷积神经网络处理加权句法依存图和知识子图,从而获取融合文本句法结构信息的文本特征和体现外部知识信息的目标方面特征,在此基础上,拼接两组特征向量完成情感极性分类。实验结果表明,在Laptop14、Restaurat14和Restaurat15数据集上,该模型的F1值分别达到77.34%、76.58%和68.57%,相比ATAELSTM、TD-LSTM、ASGCN等基线模型,其F1值分别平均提高7.28%、5.71%和6.28%,所提模型通过提取文本句法依存关系特征以及外部知识特征获得了更好的...  相似文献   

9.
藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征, 提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F1值为99.4%。  相似文献   

10.
基于集成合并的文本特征提取方法   总被引:1,自引:1,他引:0  
文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程.在文本分类中,特征的提取对于分类的结果相当重要.从特征提取这一阶段出发,提出了一个集成合并的特征提取方法,该方法主要集成多种特征提取方法并合并关系密切的特征,并利用支持向量机SVM(Support Vector Machine)分类的高准确率,能够求出全局最优方法等优点来对得到的特征向量进行分类评估.实验证明,此种特征提取能够降低分类时间和提高分类的准确率.  相似文献   

11.
针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现。然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息。最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。  相似文献   

12.
文章对基于文本、Token和抽象语法树的同源性检测技术进行探讨,详细介绍了关于抽象语法树的同源性检测技术。同时,在对实际应用大量研究的基础上,文章着重介绍了源代码同源性检测系统的架构设计,以及引擎比对、比对结果分析和比对结果输出等主要功能模块,并对开发的系统进行了系统测试和分析,验证了算法的可行性。  相似文献   

13.
文本特征提取和分类器优化是文本分类的两个关键问题,为了提高文本分类正确率,提出一种聚类加权(CW)和布谷鸟(CS)算法优化最小二乘支持向量机(LSSVM)的文本分类模型。采用TF-IDF算法计算特征词的权重,根据特征词的位置进行加权,经过特征聚类处理降低特征冗余度,采用LSSVM建立文本分类器,采用CS算法对LSSVM参数进行优化。采用复旦大学语料库对模型性能进行仿真测试,仿真结果表明,模型不仅提高了文本分类的正确率,而且提高了文本分类的效率。  相似文献   

14.
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用[k]-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。  相似文献   

15.
为了检测程序设计类课程中出现的作业抄袭行为,提出了基于抽象语法树的抄袭检测方法.运用语法分析工具对代码进行语法分析生成抽象语法树(AST),通过计算生物学中序列匹配的算法进行程序相似度的计算.提取程序相似部分的AST特征,生成空间向量,聚类分析找出“抄袭团伙”.实验结果表明,该方法对抄袭行为具有较好的检测效果,并能比较准确地找到“抄袭团伙”.  相似文献   

16.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

17.
研究了文本挖掘精确度问题。针对传统的聚类文本分类算法在文本分类中存在高维性和稀疏性,特别是同义词和近义词难以进行分类,使得分类的精确度低等问题,提出了一种聚类平均信息量文本分类算法。算法从信息论观点分析文本空间向量,将文本看做一个信息源,通过求得该信息源的各个特征的次数来积累文本信息量,以领域特征明显的词和短语作为聚类对象,然后采用层次平均信息量进行特征提取。仿真实验结果表明,提出的算法能够有效地提取文本信息,提高了文本分类的精度,具有一定的实际应用价值。  相似文献   

18.
万志超  胡峰  邓维斌 《计算机应用》2019,39(11):3127-3133
传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合三支决策的思想,提出了一种面向不平衡文本情感分类的三支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。  相似文献   

19.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号