首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向。实验结果表明了该框架在中文网络评论情感分类任务上的有效性,特别是在Logistic Regression分类算法上准确率达到90.3%。  相似文献   

2.
杨锋  彭勤科  徐涛 《自动化学报》2010,36(6):837-844
提出了一种基于随机网络的在线评论情绪倾向性分类模型SCP-X (Shortest covering path-X). 首先引入了一种增量式创建词语顺序共现随机网络的方法, 并基于此随机网络以及情绪词表, 提出了一种基于评论序列最短覆盖路径(Shortest covering path, SCP)的情绪倾向性分类方法. 该方法具有以下两个优点: 1)能够对相对短小、随意性 较强、完整性较差的评论文本展开词语联想, 从而对完整性较差的评论数据进行属性值扩展; 2) 能够对评论文本的冗余属性进行约简, 约简后数据的属性规模为一般VSM模型 的10%左右. 本文最后设计了一组实验, 对以下算法进行了对比测试: TC, SVM, SCP-TC, SCP-SVM, SCP-HMM, SCP-Bayes. 结果表明本文提出的SCP-X方法对在线评论文本的倾向性分类效果更佳.  相似文献   

3.
本文以电商平台上的产品评论文本为研究对象,针对产品评论中特征词和观点词的识别问题进行了研究.首先构建特征-观点对二分网络,再给出特征-观点对二分网络中节点重要性排序算法,最后将此算法应用到实际的评论文本数据中以检验算法的有效性.  相似文献   

4.
网络评论中的信息特征及情感倾向是一种重要信息,文章针对有的中文产品评论信息挖掘存在的不足,提出了一种基于词汇共现性的产品特征聚类技术与细粒度情感分析技术。在产品评论中,同类的产品属性会有多种多样的表述方式,文章将产品评论中的产品特征进行归类,且与以往基于句子的整体情感分析不同,提出了针对产品特征的更细粒度情感分析技术,并且对没有相应情感倾向的属性词做出合理处理。  相似文献   

5.
某些卖方通过雇佣水军群组撰写虚假评论和评分等手段来影响或误导消费者的购买决策,而拥有造假间隔时间长、造假次数少、规模小等特殊造假特征的水军群组即游离水军群组,是难以识别的。为了检测游离水军群组,提出了一种基于时序邻居序列的游离水军群组检测方法。首先,通过时序网络建模评论者的共评论关系,并基于时序网络形成时序邻居序列;其次,基于时序邻居序列生成、合并和净化规则得到候选群组集合;最后,使用造假指标将候选群组分类排序,得到游离水军群组。基于两个真实数据集分别设计了三组实验来验证筛选高可疑度评论者可行性、在不同数据集上选择合适的阈值等。结果显示在两个真实数据集上本方法优于基线方法。  相似文献   

6.
为实现网络上非领域相关的中文产品评论信息的搜索及结构化,设计并实现中文产品评论结构化引擎,该引擎通过抓取网络上指定产品的评论,抽取评论中的特征与意见,判断意见的极型,将评论以(特征,意见,极型)的结构化形式输出给用户。其中特征意见抽取解决了产品隐形特征抽取问题。实验结果表明该引擎的特征意见召回率与准确率、意见极型判断准确率等指标可以满足用户需要。  相似文献   

7.
为发现针对新闻事件中实体展开的网络评论,本文提出一种基于条件随机场的网络评论与新闻事件中命名实体匹配方法。提出使用Semi-Markov CRFs从评论语句中识别出片段粒度的命名实体。针对评论描述随意的特点,结合命名实体的模式特征、符号特征等特征识别出评论中实体的简称、缩写、昵称等变体形式。本文使用Linear-Chain CRFs结合多种匹配方法计算评论中命名实体与事件中命名实体的综合相似度,完成匹配。实验证明,提出的基于条件随机场的网络评论与事件中命名实体匹配方法能够准确根据命名实体匹配评论与事件。  相似文献   

8.
王刚  杨善林 《计算机科学》2013,40(Z11):274-277
网络商品评论情感分析对网络购物用户的决策有着重要的帮助,因此,分类准确性的提高一直是网络商品评论情感分析研究关注的重点问题之一。近些年,集成学习理论是提高分类精度的一种有效途径,并已有研究将Bagging、Boosting引入网络商品评论的情感分析领域,但对于Random Subspace集成学习方法关注相对较少。为此,本研究根据网络商品评论情感分析问题的高维度数据特征,提出一个新的网络商品评论情感分析方法RS-SVM。该方法以集成学习中的Random Subspace为基础,选取目前在情感分析领域广泛应用的SVM作为基学习器,通过集成Random Subspace较强的学习能力,进一步提高网络用户评论情感分析的准确程度。最后,在网络商品评论情感分析经典数据库Movie Reviews上进行了实验,结果表明RS-SVM取得了比其它分类器都好的实验结果。  相似文献   

9.
传统上,文本情感分析技术仅限于情感分类,即仅局限于简单的将评论分为正面或负面两类。而在实际中,有时更需要将评论进行分级,比如把商品划分为“好”、“中”、“差”、“极差”等若干个级别,以便更准确表达评论者的情感;现有的情感分类方法无法解决评论分级问题。为此,提出了基于潜在语义索引的评论文本情感序列回归方法,首先采用潜在语义索引对评论文本进行特征变换,并在此基础上采用核判别学习序列回归方法进行序列回归,实现对评论文本的情感分级。通过在Movie Reviews数据库的实验,验证了提出方法的有效性。  相似文献   

10.
为研究神经元的放电时间序列随时间的演化特性,提出了一种将放电时间序列的时间域映射到网络域进行处理的方法,即研究基于神经元的复杂网络随时间的演化特征来刻画神经元放电时间序列的时变特性.通过构建滑动时间窗内复杂网络拓扑,并计算其局部可视图的统计特性来实现时间序列时变特征的描述.对神经元map模型三种簇放电时间序列进行复杂网络构建并实现网络拓扑可视化,同时分析网络的统计特性来验证方法的有效性.结果表明,网络的拓扑、平均路径长度和聚类系数均能反映原时间序列的时变形态特征,并对神经元簇放电具有参数敏感性;簇放电稀疏程度与社团大小存在相关性.神经元放电时间序列网络域的时变演化特征能刻画其时间域特性,为神经电信号的处理提供了新的思路.  相似文献   

11.
论文以酒店在线评论数据为研究对象,对酒店在线评论数据的特征挖掘进行了研究。论文首先从酒店在线评论数据的获取出发,经过数据清洗、词性分析、特征抽取、指标确定、特征筛选、特征确定、特征校验几个环节,实现了酒店在线评论数据特征挖掘的目的。论文以词频为基础,融合了词性分析、聚类分析等方法,利用词频数(TF)、词频率(TF1)、词频权重(TTW)、评论频率(DF)、逆文档频率(IDF)和TF1-IDF等指标对候选特征词进行降维,得出酒店在线评论数据的特征,并对特征词进行校验,完成了酒店在线评论数据的特征挖掘的过程。论文将为以评论为依据的客户分类、酒店分类、智能推荐奠定基础。  相似文献   

12.
黄铃  李学明 《计算机应用》2013,33(12):3563-3566
针对微博上存在的大量垃圾评论,提出一种基于AdaBoost的微博垃圾评论识别方法。该方法首先提取表示微博评论的特征值向量,由8个特征值组成,然后通过AdaBoost算法在这些特征上训练出若干个比随机预测好的弱分类器,最后将得到的弱分类器加权集合成高精度的强分类器。从实际的热门新浪微博中提取评论数据集进行实验,结果表明所选取的8个特征是有效的,该方法对于微博垃圾评论的识别拥有较高的识别率。  相似文献   

13.
杨文柱  卢素魁  王思乐 《计算机应用》2011,31(12):3446-3448
提出一种基于多类支持向量机的棉花异性纤维分类方法,以期解决棉花异性纤维的在线分类难题。该方法首先对异性纤维目标图像进行颜色、形状和纹理特征提取,形成用于精确描述异性纤维目标的特征向量;然后分别构建3种不同体系结构的多类支持向量机用于棉花异性纤维的分类;最后采用交叉验证法对所构建的3种多类支持向量机进行测试。测试结果表明,基于有向无环图的一对一多类支持向量机在分类精度和分类速度上更适合用于棉花异性纤维在线分类。  相似文献   

14.
为了充分挖掘和应用电子商务网站中的教材评论信息,运用细粒度的情感分类算法对用户的在线评论进行分析,基于教材特征级的情感分析结果,辅助潜在客户和商家做出合理有效的决策.本文首先使用爬虫采集教材的在线评论文本,对其进行去噪、分词和词性标注等预处理;然后分析产品特征,在通用情感词典的基础上扩建领域情感词典;最后基于句法分析结果,结合教材评论的语言特性,设计适合教材评论的情感倾向性分析算法,并通过实验验证了算法的有效性.  相似文献   

15.
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性。目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性。特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征。基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征。在10个数据集上的实验结果表明了所提算法的有效性。  相似文献   

16.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

17.
The annotation of proteins can be achieved by classifying the protein of interest into a certain known protein family to induce its functional and structural features. This paper presents a new method for classifying protein sequences based upon the hydropathy blocks occurring in protein sequences. First, a fixed-dimensional feature vector is generated for each protein sequence using the frequency of the hydropathy blocks occurring in the sequence. Then, the support vector machine (SVM) classifier is utilized to classify the protein sequences into the known protein families. The experimental results have shown that the proteins belonging to the same family or subfamily can be identified using features generated from the hydropathy blocks.  相似文献   

18.
在图像标注、疾病诊断等实际分类任务中,数据标记空间的类别通常存在着层次化结构关系,且伴随着特征的高维性.许多层次特征选择算法因不同的实际任务需求而提出,但这些已有的特征选择算法忽略了特征空间的未知性和不确定性.针对上述问题,提出一种基于ReliefF的面向层次分类学习的在线流特征选择算法OH_ReliefF.首先将类别...  相似文献   

19.
序列标注问题是自然语言处理领域的基本问题之一. 序列标注任务是将连续输入的不定长序列, 标注成连续等长的标签序列. 在在线序列标注方法的基本框架下, 针对序列标注任务的特征稀疏特性, 采用置信度加权分类算法思想, 提出了一种新的线性判别式在线序列标注方法---置信度加权在线序列标注算法. 该方法对每个特征权值参数引入一个概率置信度, 取得了优于其他相关算法的性能. 在中文分词, 中文名实体识别以及英文组块分析等问题上, 验证了本文方法的有效性.  相似文献   

20.
Di Wang  Peng Zhang 《Pattern recognition》2010,43(10):3468-3482
Support vector machine (SVM) is a widely used classification technique. However, it is difficult to use SVMs to deal with very large data sets efficiently. Although decomposed SVMs (DSVMs) and core vector machines (CVMs) have been proposed to overcome this difficulty, they cannot be applied to online classification (or classification with learning ability) because, when new coming samples are misclassified, the classifier has to be adjusted based on the new coming misclassified samples and all the training samples. The purpose of this paper is to address this issue by proposing an online CVM classifier with adaptive minimum-enclosing-ball (MEB) adjustment, called online CVMs (OCVMs). The OCVM algorithm has two features: (1) many training samples are permanently deleted during the training process, which would not influence the final trained classifier; (2) with a limited number of selected samples obtained in the training step, the adjustment of the classifier can be made online based on new coming misclassified samples. Experiments on both synthetic and real-world data have shown the validity and effectiveness of the OCVM algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号