首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。  相似文献   

2.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

3.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

4.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

5.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

6.
传统的神经网络模型主要是以词向量的形式处理短文本的分类任务,造成模型过度依赖分词的精度,而短文本又具有语料短、特征发散的特点,针对这一系类问题提出一种基于BERT和BiLSTM相融合的短文本情感分类模型。首先,利用BERT模型将训练的文本转换成以字为单位的向量表示形式;随后,将生成的字向量作为双向长短期记忆网络输入,获取到相关字的上下文的语义表示;并通过加入随机Dropout机制防止模型发生过拟合;最后,将提取的特征向量输入到全连接层,经过Softmax函数计算出文本所属的情感类别。经实验表明,在处理短文本方面,基于BERT-BiLSTM的算法模型比传统的利用词向量的神经网络模型分类更加精准可靠。  相似文献   

7.
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。  相似文献   

8.
方澄  李贝  韩萍 《信号处理》2021,37(6):1066-1074
网络社交的流行与普及,使得微博等短文本区别于以往传统文章,具有了独有的文学表达形式和情感发泄方式,导致基于短文本的机器学习情感分析工作难度逐渐增大。针对微博短文本的语言表达新特性,爬取收集大量无情感标记微博数据,建立微博短文本语料库,基于全局语料库构建词与短文本的全局关系图,使用BERT(Bidirectional Encoder Representations from Transformers)文档嵌入作为图节点的特征值,采用图卷积进行节点间的特征传递和特征提取。采样部分无情感标记微博数据进行人工标注,采用半监督机器学习方法结合全局关系图提高情感分类器的性能,实验表明通过无情感标记数据比例的增加,该方法可以更好地捕捉全局特征,提高情感分类的精度。在自建人工标记数据、COAE2014数据集和NLP&CC2014数据集上进行了对比实验,实验结果表明该方法在精确率和召回率上均具有很好的表现。   相似文献   

9.
《现代电子技术》2019,(21):182-186
针对现有以χ~2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ~2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。  相似文献   

10.
针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特征。结合注意力机制分配不同的权重值,最后使用Softmax分类器得到分类结果。研究表明,该模型在THUCNews数据集上F1值达到了95.63%,相较于基准模型BERT提高了2.18%,验证了其在短文本分类任务中的可行性和有效性。  相似文献   

11.
基于高效用神经网络的文本分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
吴玉佳  李晶  宋成芳  常军 《电子学报》2020,48(2):279-284
现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现频率.其中,共现频率在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验分析,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法.  相似文献   

12.
面向短文本的动态组合分类算法   总被引:4,自引:2,他引:2       下载免费PDF全文
闫瑞  曹先彬  李凯 《电子学报》2009,37(5):1019-1024
 短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.  相似文献   

13.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

14.
针对传统卷积神经网络(CNN)同层神经元之间信息不能互传,无法充分利用同一层次上的特征信息,以及无法提取长距离上下文相关特征的问题.该文针对中文文本,提出字符级联合网络特征融合的模型进行情感分析,在字符级的基础上采用BiGRU和CNN-BiGRU并行的联合网络提取特征,利用CNN的强学习能力提取深层次特征,再利用双向门限循环神经网络(BiGRU)进行深度学习,加强模型对特征的学习能力.另一方面,利用BiGRU提取上下文相关的特征,丰富特征信息.最后在单方面上引入注意力机制进行特征权重分配,降低噪声干扰.在数据集上进行多组对比实验,该方法取得92.36%的F1值,结果表明本文提出的模型能有效的提高文本分类的准确率.  相似文献   

15.
马慧芳  刘芳  夏琴  郝占军 《电子学报》2018,46(6):1410-1414
针对科技文献类标题短文本关键词提取时,已有自然语言处理算法难以建模文献时间与权威性且短文本词语较少建模往往存在高维稀疏问题,本文提出了一个综合实时性以及权威性的关键词提取算法为研究者进行相关推荐.该方法将文献标题视为超边,将标题中不同词项视为超点来构建超图,并对超图中的超边与超点同时加权,进而设计一种基于加权超图随机游走的关键词提取算法对文献标题的词项进行提取.该模型通过对文献来源,发表年份以及被引次数建模来对超边进行加权,根据节点之间的关联度以及每对节点在特定标题中的共现距离对超点加权.最后,通过超图上的随机游走计算出节点的重要性进而确立可推荐的关键词.实验表明,与三种基准短文本关键词提取算法相比,本文算法在精确率和召回率方面均有所提高.  相似文献   

16.
基于蚁群算法的文本分类和聚类   总被引:2,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

17.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号