首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
SENTIMENT CLASSIFICATION of MOVIE REVIEWS USING CONTEXTUAL VALENCE SHIFTERS   总被引:3,自引:0,他引:3  
We present two methods for determining the sentiment expressed by a movie review. The semantic orientation of a review can be positive, negative, or neutral. We examine the effect of valence shifters on classifying the reviews. We examine three types of valence shifters: negations, intensifiers, and diminishers. Negations are used to reverse the semantic polarity of a particular term, while intensifiers and diminishers are used to increase and decrease, respectively, the degree to which a term is positive or negative. The first method classifies reviews based on the number of positive and negative terms they contain. We use the General Inquirer to identify positive and negative terms, as well as negation terms, intensifiers, and diminishers. We also use positive and negative terms from other sources, including a dictionary of synonym differences and a very large Web corpus. To compute corpus-based semantic orientation values of terms, we use their association scores with a small group of positive and negative terms. We show that extending the term-counting method with contextual valence shifters improves the accuracy of the classification. The second method uses a Machine Learning algorithm, Support Vector Machines. We start with unigram features and then add bigrams that consist of a valence shifter and another word. The accuracy of classification is very high, and the valence shifter bigrams slightly improve it. The features that contribute to the high accuracy are the words in the lists of positive and negative terms. Previous work focused on either the term-counting method or the Machine Learning method. We show that combining the two methods achieves better results than either method alone.  相似文献   

2.
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。  相似文献   

3.
针对微博文本情感分析中大量有标记数据难获取,以及文本特征学习不完全的问题,提出将长短时记忆网络(Long Short-Term Memory,LSTM)及其衍生模型双向长短时记忆网络(Bi-LSTM)引入变分自编码生成模型,构建基于变分自编码的半监督文本分类模型.其中LSTM作为变分编码器中的编码器和解码器,Bi-LSTM作为分类器.分类器既为编码器提供标签信息共同生成隐变量,也与隐变量通过解码器共同重构数据,利用无标记数据的有用信息提高分类器的性能.与其他方法在同一公开数据集上对比的实验结果表明,该模型的分类效果更好.  相似文献   

4.
This article addresses writer identification of handwritten Arabic text. Several types of structural and statistical features were extracted from Arabic handwriting text. A novel approach was used to extract structural features that build on some of the main characteristics of the Arabic language. Connected component features for Arabic handwritten text as well as gradient distribution features, windowed gradient distribution features, contour chain code distribution features, and windowed contour chain code distribution features were extracted. A nearest neighbor (NN) classifier was used with the Euclidean distance measure. Data reduction algorithms (viz. principal component analysis [PCA], linear discriminant analysis [LDA], multiple discriminant analysis [MDA], multidimensional scaling [MDS], and forward/backward feature selection algorithm) were used. A database of 500 paragraphs handwritten in Arabic by 250 writers was used. The paragraphs used were randomly generated from a large corpus. NN provided the best accuracy in text-independent writer identification with top-1 result of 88.0%, top-5 result of 96.0%, and top-10 result of 98.5% for the first 100 writers. Extending the work to include all 250 writers and with the backward feature selection algorithm (using 54 out of 83 features), the system attained a top-1 result of 75.0%, top-5 result of 91.8%, and top-10 result of 95.4%.  相似文献   

5.
针对Word2vec等静态词向量模型对于每个词只有唯一的词向量表示,无法学习在不同上下文中的词汇多义性问题,提出一种基于动态词向量和注意力机制的文本情感分类方法.在大型语料库上利用深度双向语言模型预训练通用词向量;在情感分类任务的训练语料上对向量模型进行微调,得到最终的上下文相关的动态词向量作为输入特征;搭建双向长短期...  相似文献   

6.
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。  相似文献   

7.
情感分析的一个重要应用是判断用户对于产品评论的情感倾向,这些用户评论一般都是字数较少的短文本。传统方法多利用词袋模型获取单词的浅层特征来进行情感分析,利用这些简单特征训练的模型在短文本,尤其是在复杂语法问题上效果并不理想。通过利用深度递归神经网络算法来捕获句子语义信息,并引入中文"情感训练树库"作为训练数据来发现词语情感信息,在短文本情感五分类的问题上取得了较高的准确率。针对复杂模型在海量数据训练上的时间效率问题,通过在Spark并行框架下实现了模型的并行化处理,使得模型的可扩展性和时间效率得到提升。  相似文献   

8.
随着电子商务的迅速发展,人们越来越亲睐于网上购物。在网上购物之前,消费者往往会参考该产品相关的评价以决定是否购买。因此虚假评论者的识别具有非常重要的意义。基于虚假评论者和真实评论者在情感极性上存在的差异,在特征建模过程中增加了评论文本的情感特征,并结合用户之间对于特定商品之间的关系,创建了一个多边图的模型并提出了一种识别虚假评论者的方法。实验结果验证了该算法的有效性。  相似文献   

9.
通过大规模语料实验和分析,揭示倾向性文本与普通文本在词性特征、依存关系、依存关系中的词性特征、邻接依存关系以及邻接依存关系中的词性特征等五个方面客观存在的差异。总结出若干有意义的结论,如:名词、副词、拟声词、状中结构、副词动词序列等在有倾向性文本中占有率明显高于普通文本;地理名、专有名词、定中关系、名词名词序列等在有倾向性文本中占有率明显低于普通文本等等。这些结论可以作为使用机器学习方法进行本文倾向性判断与分析的特征集使用。  相似文献   

10.
电路题目自动解答是人工智能领域前沿研究问题。提出一种融合文本和图形抽取物理关系的电路题目自动解答新方法。通过句法语义模型抽取题目文本中的数量关系,再使用网孔搜索算法抽取电路图形中的结构关系,从而形成一致性题目理解。为了验证该方法的有效性,在电路题目数据集上分别设计了文本、图形的理解及自动解答对比实验。结果表明:句法语义模型对电路文本关系完全抽取率达97.22%,电路图形中的VCR、KCL和KVL关系抽取准确率分别为90.91%、81.82%、91.3%,而文本和图形融合实现的电路题目自动解答,解答率达88.89%,验证了该方法的有效性。  相似文献   

11.
PowerBuilder实现图文混排试题库系统的技巧   总被引:1,自引:0,他引:1  
本文将试题分为两种类型:文字型试题和位图型试题。文字型试题是以文字、ASCI/码字符构成的试题;位图型试题是一幅图,一般将带有复杂的图形、图像、公式、特殊符号的这种试题以位图的方式表示出来。在抽题组卷时,不用考虑是文字型试题还是位图型试题。在图文混排窗口中,文字型试题和位图型试题均被正常地显示出来。本文重点介绍所使用的一些技巧。  相似文献   

12.
为了解决情感分类文本稀疏、传统方法过分依赖情感词典和人工设定特征工程等问题,提出一种基于L2-SVM和动态卷积神经网络的LDCNN模型。该模型采用不同于经典CNN模型的L2-SVM目标函数,解决了参数优化过程梯度弥散现象。通过真实网络评论数据集与经典方法的定量对比,实现了LDCNN模型准确率的大幅提升,并通过调整惩罚系数获得了最佳模型性能。  相似文献   

13.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

14.
文本聚类是聚类的一个重要的研究分支,是聚类方法在自然语言处理领域的具体应用.研究表明事件在大量的文本中是客观存在的,诸多文本是由事件组成的,事件是文本表示的最小语义单位.探讨了以事件为特征的文本聚类方法,首先给出了基于事件的文本概念格表示模型,在此模型的基础上,给出了文本相似度的计算方法.最后,使用K-means聚类算法对所提方法进行了实验验证.  相似文献   

15.
场景文字包含了重要的场景图像的语义信息。因此将场景图像中出现的文字抽取出来,将会对场景图像的内容分析、检索和浏览提供有益的帮助。提出的场景文字提取方法,是在边缘检测的基础上,使用分层块过滤的方法在不同尺度上过滤背景,产生场景文字区域,然后对聚合出来的文字区域根据笔划颜色和笔划宽度方面的特征进行二值化分割得到二值化文字图像,这些二值化后的文字区域图像可以作为OCR引擎的输入进行识别,从而达到提取场景图像语义信息的目的。分层块过滤的方法能较好地过滤背景聚合产生文字区域,利用文字的笔划特征也能有效地分割出文字笔划像素。实验结果也证明了方法的有效性。  相似文献   

16.
An agent-based simulation model representing a theory of the dynamic processes involved in innovation in modern knowledge-based industries is described. The agent-based approach allows the representation of heterogenous agents that have individual and varying stocks of knowledge. The simulation is able to model uncertainty, historical change, effect of failure on the agent population, and agent learning from experience, from individual research and from partners and collaborators. The aim of the simulation exercises is to show that the artificial innovation networks show certain characteristics they share with innovation networks in knowledge intensive industries and which are difficult to be integrated in traditional models of industrial economics.  相似文献   

17.
手写体维文识别技术的关键在于特征提取方法的选择。为探求一种可靠性高、可分性强的脱机手写维文特征提取方法,在分析现有方法的基础上,结合维吾尔文字词自身的特点,提出一种在局部特征上基于弹性网格区域笔划密度、方向分解特征,在全局特征上提取交叉点、环、弧形笔划、附加笔划、外围轮廓特征的混合特征提取方法。通过在IFN/ENIT标准数据库及自采样数据集的聚类分析实验,识别正确率分别达到85%、84.3%。结果表明,方法综合统计特征和结构特征提取的优点,具有较强的抗扰能力,可分性优于GSC法。  相似文献   

18.
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。  相似文献   

19.
基于知识的文本摘要系统研究与实现   总被引:18,自引:2,他引:16  
提出了一个基于知识的文摘系统模型,并基于这种模型实现屯一个文本摘要系统LADIES,另外,还提出了一种文摘系统的评估方法。  相似文献   

20.
多媒体文稿编辑器的设计与实现   总被引:1,自引:0,他引:1  
本文提出了一种适用于办公事务处理的多媒体邮件系统的文稿编辑器的设计思想和实现方案,详细阐述了插入语音注释、插入图象、勾划的实现途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号