首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于情绪知识的中文微博情感分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
庞磊  李寿山  周国栋 《计算机工程》2012,38(13):156-158,162
通过对新浪微博文本进行情感信息方面的分析与研究,提出一种基于情绪知识的非监督情感分类方法。利用情绪词和表情图片 2种情绪知识对大规模微博非标注语料进行筛选并自动标注,用自动标注好的语料作为训练集构建微博情感文本分类器,对微博文本进行情感极性自动分类。实验结果表明,该方法对微博文本的情感极性分类达到较好的效果。  相似文献   

2.
针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的"文档-主题"和"词语-主题"概率矩阵;基于情感本体库和"词语-主题"概率矩阵,认为某一类情绪词汇出现的概率最高的主题与词汇的情绪类别相同,对主题进行情绪类别标注;最后,基于"文档-主题"概率矩阵,认为出现在某一主题概率最高的文档与主题的情绪类别相同,通过"词汇-主题-文档"三者的关系,达到自动标注的效果.实验结果表明,本文提出的方法准确率可达到90%以上.  相似文献   

3.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

4.
该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。  相似文献   

5.
提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.  相似文献   

6.
平行语料库中双语术语词典的自动抽取   总被引:7,自引:5,他引:2  
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果。  相似文献   

7.
蔡月红  朱倩  孙萍  程显毅 《计算机应用》2010,30(4):1015-1018
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

8.
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如“想买一部手机”。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。  相似文献   

9.
多分类器集成的汉语词义消歧研究   总被引:10,自引:0,他引:10  
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法.  相似文献   

10.
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。  相似文献   

11.
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。  相似文献   

12.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。  相似文献   

13.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。  相似文献   

14.
基于微博的用户相似度计算研究   总被引:1,自引:0,他引:1  
针对传统的相似度计算方法和评价标准在准确、高效地度量微博用户相似关系时不理想的缺陷,提出一种新的微博用户相似度的计算方法。该方法针对不同的属性数据结构采用不同的计算方式,并根据属性统计信息对各个属性赋值,利用层次分析法确定各属性权值,最后构建综合相似度计算模型。实验结果表明,相对于传统的相似度计算方法,所提计算方法衡量用户相似的准确度提高了22.6%,召回率提高了12.7%,F1度量值提高了29.5%。  相似文献   

15.
Tian  Feng  Liu  Xianmei  Liu  Zhuoxuan  Sun  Ning  Wang  Mei  Wang  Haochang  Zhang  Fengquan 《Multimedia Tools and Applications》2019,78(1):437-456

Multimedia automatic annotation, which assigns text labels to multimedia objects, has been widely studied. However, existing methods usually focus on modeling two types of media data or pairwise correlation. In fact, heterogeneous media are complementary to each other and optimizing them simultaneously can further improve accuracy. In this paper, a novel common space learning (CSL) algorithm for multimedia integrated annotation is presented, by which heterogeneous media data can be projected into a unified space and multimedia annotation is transformed to the nearest neighbor search in the space. Optimizing these heterogeneous media simultaneously makes the heterogeneous media complementary to each other and aligned in the common space. We solve the proposed CSL as an optimization problem mainly considering the following issues. First, different types of media objects with the similar labels should be closer in the common space. Second, the media similarity of the original space and the common space should be consistent. We attempt to solve the optimization problem in a sparse and semi-supervised learning framework, thus more unlabeled data can be integrated into the learning process, which can boost the performance of space learning. In addition, we proposed an iterative optimization algorithm to solve the problem. Since the projected samples in the common space share the same representation, the labels for new media object are assigned by a simple nearest neighbor voting mechanism. To the best of our knowledge, our method has made the first attempt to multimedia integrated annotation. Experiments on data sets with up to four media types (image, sound, video and 3D model) show the effectiveness of our proposed approach, as compared with the state-of-the-art methods.

  相似文献   

16.
为了产生语义Web中的元数据,需要提取Web文档中的语义信息。面对海量的Web文档,自动语义标注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法,旨在提高标注的质量。为识别出文档中的候选命名实体,设计了语义词典的逻辑结构,论述了以实体之间语义关联路径计算语义距离的方法。语义标注中的复杂问题是语义消歧,提出了基于最短路径的语义消歧方法和基于n-gram的语义消歧方法。采用这种方法对文档进行语义标注,将标注结果持久化为语义索引,为实现语义信息检索提供基础。针对构建的测试数据集,进行的标注实验表明该方法能够依据本体知识库,有效地对Web文档进行自动语义标注。  相似文献   

17.
为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。  相似文献   

18.
A hierarchical scheme for elastic graph matching applied to hand gesture recognition is proposed. The proposed algorithm exploits the relative discriminatory capabilities of visual features scattered on the images, assigning the corresponding weights to each feature. A boosting algorithm is used to determine the structure of the hierarchy of a given graph. The graph is expressed by annotating the nodes of interest over the target object to form a bunch graph. Three annotation techniques, manual, semi-automatic, and automatic annotation are used to determine the position of the nodes. The scheme and the annotation approaches are applied to explore the hand gesture recognition performance. A number of filter banks are applied to hand gestures images to investigate the effect of using different feature representation approaches. Experimental results show that the hierarchical elastic graph matching (HEGM) approach classified the hand posture with a gesture recognition accuracy of 99.85% when visual features were extracted by utilizing the Histogram of Oriented Gradient (HOG) representation. The results also provide the performance measures from the aspect of recognition accuracy to matching benefits, node positions correlation and consistency on three annotation approaches, showing that the semi-automatic annotation method is more efficient and accurate than the other two methods.  相似文献   

19.
图像自动标注是模式识别与计算机视觉等领域中的重要问题。针对现有图像自动标注模型普遍受到语义鸿沟问题的影响,提出了基于关键词同现的图像自动标注改善方法,该方法利用数据集中标注词间的关联性来改善图像自动标注的结果。此外,针对上述方法不能反映更广义的人的知识以及易受数据库规模影响等问题,提出了基于语义相似的图像自动标注改善方法,通过引入具有大量词汇、包含了人知识的结构化电子词典WordNet来计算词汇间的关系并改善图像自动标注结果。实验结果表明,提出的两个图像自动标注改善方法在各项评价指标上相比以往模型均有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号