首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

2.
本文主要结合浙江湖州电力业务需求,旨在打破客户对用电诉求存在的盲区,从而提高对用户用电需求的管理程度,实现热点投诉业务工单的原因挖掘。为了更好的深入挖掘投诉工单背后所蕴含的信息,研究基于自然语言处理技术出发,对电力客户投诉工单进行深入文本挖掘,利用隐马尔可夫模型等分词技术分析投诉工单中的受理内容,进行词频统计,通过TF-IDF算法计算关键词重要性权重值,提取权重值大的关键词频作为客户投诉文本挖掘的最终结果,并运用词云分析技术进行分析结果可视化展示;通过文本分类分析,构建文本分类器模型,实现对 “热点词频”在不同业务中的分布情况的研究,并根据结果开展相应改进措施。把控住当下电力客户投诉的主要问题,针对性的为不同类型的电力客户提供差异化的服务策略,从而提高客户满意度和忠诚度。专题的推广应用,能够很好的提升客服部门的工作效率,落在实处的为客户解决难题。  相似文献   

3.
贵州省非物质文化遗产极为丰富,蕴涵着贵州各民族特有的精神价值、思维方式、想象力和文化意识,体现着贵州各民族的生命力和创造力。为了更好地发掘和保护贵州非物质文化遗产,通过对贵州省非物质文化遗产保护中心网的数据挖掘,采用词云分析、聚类分析和可视化技术等,对贵州非物质文化遗产的文本数据进行处理,并提取有价值的关键文本信息,为贵州非物质文化遗产的传承和发展提供依据。  相似文献   

4.
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
  相似文献   

5.
为了降低在传统的文本分类方法中自然语言的不确定性对分类效果的影响,提出了一种结合云模型的文本分类方法。该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。实验结果表明,与传统的K-NN算法相比,该方法在分类准确率等方面有所提高。  相似文献   

6.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

7.
文本索引词项相对权重计算方法与应用   总被引:4,自引:0,他引:4  
文本索引词权重计算方法决定了文本分类的准确率。该文提出一种文本索引词项相对权重计算方法,即文本索引词项权重根据索引词项在该文本中的出现频率与在整个文本空间出现的平均频率之间的相对值进行计算。该方法能有效地提高索引词对文本内容识别的准确性。  相似文献   

8.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

9.
基于云模型的文本数字水印技术   总被引:10,自引:0,他引:10  
赵东宁  张勇  李德毅 《计算机应用》2003,23(Z2):100-102
随着计算机技术和因特网技术的飞速发展,数字文本的传播、拷贝更容易,同时也面临着非法传播和随意篡改问题.文章叙述了数字水印技术及其基本特征,针对文本的特点提出了基于云模型的文本数字水印技术,并通过实验分析了该水印技术.基于云模型的文本数字水印技术对数字文本的版权保护有一定的实际应用价值.  相似文献   

10.
随着专利申请数量的快速增长,对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量(GloVe)等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题,提出了一种结合ALBERT和双向门控循环单元(BiGRU)的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证,与Word2vec-BiGRU和GloVe-BiGRU相比,ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点,在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明,ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。  相似文献   

11.
Word clouds are proliferating on the Internet and have received much attention in visual analytics. Although word clouds can help users understand the major content of a document collection quickly, their ability to visually compare documents is limited. This paper introduces a new method to create semantic‐preserving word clouds by leveraging tailored seam carving, a well‐established content‐aware image resizing operator. The method can optimize a word cloud layout by removing a left‐to‐right or top‐to‐bottom seam iteratively and gracefully from the layout. Each seam is a connected path of low energy regions determined by a Gaussian‐based energy function. With seam carving, we can pack the word cloud compactly and effectively, while preserving its overall semantic structure. Furthermore, we design a set of interactive visualization techniques for the created word clouds to facilitate visual text analysis and comparison. Case studies are conducted to demonstrate the effectiveness and usefulness of our techniques.  相似文献   

12.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

13.
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords...  相似文献   

14.
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.  相似文献   

15.
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。  相似文献   

16.
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。 针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。 因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。 实验表明该方法在 F1 值和准确度评价标准上优于其他方法。  相似文献   

17.
基于对语料的统计分析,提出了词关联度的概念。通过对文本库中词语出现的频率,以及任意两个词语共同出现的频率进行统计,获得了各个词语之间的关联度,并使用这一参数对语义向量进行调整,可以有效地解决传统向量空间模型的单词依赖问题。结合倒排索引技术,实际建立了一个相当规模的文本检索系统。测试结果表明,系统具有较好的效果和良好的性能,具备实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号