首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 86 毫秒
1.
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。由于微博平台数据量庞大,所以会导致提取带有用户观点的句子较为困难,如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,该文将传统观点句识别方法与共现词相结合,提出了基于共现词的中文微博观点句识别算法。该文的研究内容包含以下几点:首先,利用主题模型对数据进行聚类分析,提取具有内容代表性的词语,组成共现词集合;然后,使用Stanford Parser句法分析工具对微博数据进行句法分析并且进行模板匹配,识别出较为明显的观点句;最后,使用共现词与2-POS[1]等特征,识别句法分析无法识别的观点句。  相似文献   

2.
程显毅  刘颖 《计算机科学》2015,42(5):98-105
针对观点句的特点提出了适合观点句识别的特征抽取规则.在此基础上,融合图论中最小割原理和机器学习分类方法,引入知识图的概念,并提出了基于知识图的观点句识别算法.以公开评测语料、自建语料和开放语料进行了相关实验,结果表明:基于知识图的观点句识别算法的分类性能和稳定性有明显优势.  相似文献   

3.
王剑  唐珊  黄于欣  余正涛 《计算机应用》2005,40(10):2845-2849
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。  相似文献   

4.
领域相关的大规模和高质量的标注训练数据是分类器性能的重要保证,而标注训练语料是一件费时费力的工作。该文提出了一种采用小规模标注语料识别中文观点句的方法。首先采用Bootstrapping方法扩展训练语料,分别训练贝叶斯、支持向量机和最大熵分类器。最后,通过给三个训练好的分类器赋权获得一个集成分类器。实验结果表明,集成后的分类器性能优于单分类器,并且该方法在使用部分标注训练数据的情况下也能取得与采用全部标注训练数据相近的实验结果。  相似文献   

5.
为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。  相似文献   

6.
王剑  唐珊  黄于欣  余正涛 《计算机应用》2020,40(10):2845-2849
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。  相似文献   

7.
随着在线社交网络的爆炸式增长,微博已成为人们发表观点和表达情绪的重要平台。微博不仅可以反映用户的观点,还可以通过转发方式等传递观点,进而影响其他用户的观点。然而,微博以其简短、口语化等特点,给识别观点带来了新的挑战。仅仅基于文本进行观点分析的传统方法在分析微博观点倾向时,效果并不理想。为解决此问题,提出了一种基于图排序模型的微博观点信息识别算法。首先,利用布尔模型表示微博文本,并用逻辑回归进行观点分析获得伪标签;然后,利用上下文关系构建微博关系图,并利用受限玻尔兹曼机抽取高维特征;最后,基于图排序模型识别微博观点信息。实验结果表明,该算法能有效地对微博观点进行识别。  相似文献   

8.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

9.
随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注。针对中文微博语句特点,通过对比多种特征选取方法,提出一种新的特征统计方法。根据构建的词语字典与词性字典,分析支持向量机、朴素贝叶斯、K最近邻等分类模型,并利用证据理论结合多分类器对中文微博观点句进行识别。采用中国计算机学会自然语言处理与中文计算会议(NLPCC 2012)提供的数据,运用该方法得到的准确率、召回率和F值分别为70.6%、89.2%、78.9%,而NLPCC2012公布的评测结果相应平均值分别为72.7%、61.5%、64.7%,该方法在召回率和F值2个指标上超过其平均值,而F值比NLPCC2012评测结果的最好值高出0.5%。  相似文献   

10.
李伟  吴及  吕萍 《计算机应用》2010,30(10):2563-2566
为了克服语音识别中单遍解码词图生成算法速度较慢的缺点,提出一种基于前后向语言模型的两遍快速解码算法。两遍解码分别采用前向与后向语言模型,同时通过优化以减少前后向语言模型不匹配对识别结果造成的影响。实验证明,该算法在保持识别准确率的基础上有效地提升了解码速度。  相似文献   

11.
文本情感倾向分析是意见挖掘和情感文摘中的一个重要环节,而在情感倾向分析中涉及到的是主观性文本,这就需要进行主客观文本分类。当前的主客观文本分类方法主要是基于特征词典的概率统计方法,并没有考虑特征之间的语法与语义关系。针对该问题,该文提出一种基于隐马尔可夫模型(HMM)的主观句识别方法。该方法首先从训练语料中抽取具有明显分类效果的七类主客观特征,然后每个句子应用HMM进行特征角色类别标注,并依据标注的结果计算句子的权重,最终识别主观句。该方法在第六届中文倾向性分析评测任务中能够有效地识别主观句。  相似文献   

12.
分词系统由于未将合成词收录进词典,因此不能识别合成词。针对该问题,提出一种基于词共现有向图的中文合成词提取算法。采用词性探测方法从文本中获取词串,由所获词串生成词共现有向图,并借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,该路径所对应的词串即为合成词。实验结果显示,该算法的合成词提取正确率达到91.16%。  相似文献   

13.
提出一种基于词内部模式的新词识别算法,该算法在重复串查找的基础上,结合词内部模式的特征提出改进位置成词概率和首尾单字成词概率的加权,依次判断互信息、邻接类别等统计量,对新词进行识别。通过不同的实验对比发现,该算法在一定程度上能有效提取新词。  相似文献   

14.
一种基于词共现的文档聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
常鹏  冯楠  马辉 《计算机工程》2012,38(2):213-214
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。  相似文献   

15.
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords...  相似文献   

16.
针对文本分类任务中标注数量少的问题,提出了一种基于词共现与图卷积相结合的半监督文本分类方法。模型使用词共现方法统计语料库中单词的词共现信息,过滤词共现信息建立一个包含单词节点和文档节点的大型图结构的文本图,将文本图中邻接矩阵和关于节点的特征矩阵输入到结合注意力机制的图卷积神经网络中实现了对文本的分类。实验结果表明,与目前多种文本分类算法相比,该方法在经典数据集20NG、Ohsumed和MR上均取得了更好的效果。  相似文献   

17.
查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。  相似文献   

18.
基于词汇吸引与排斥模型的共现词提取   总被引:3,自引:0,他引:3  
共现词提取在信息挖掘和自然语言处理中有着十分重要的地位。而传统的共现词提取方法仅仅局限在单一的一种统计量上,其结果十分不精确,需要人工再进行整理。本文提出了一种基于词汇吸引与排斥模型的共现词提取算法,并通过将多种常用统计量进行组合,改进了算法的效果。在开放测试环境下,所提取的共现词其用户感兴趣度为60.87%。将该算法应用于基于Web的共现词检索系统,在速度和共现词的提取精度上均取得了比较好的效果。  相似文献   

19.
目前,现有中文分词模型大多是基于循环神经网络的,其能够捕捉序列整体特征,但存在忽略了局部特征的问题。针对这种问题,该文综合了注意力机制、卷积神经网络和条件随机场,提出了注意力卷积神经网络条件随机场模型(Attention Convolutional Neural Network CRF, ACNNC)。其中,嵌入层训练词向量,自注意力层代替循环神经网络捕捉序列全局特征,卷积神经网络捕捉序列局部特征和位置特征,经融合层的特征输入条件随机场进行解码。实验证明该文提出的模型在BACKOFF 2005测试集上有更好的分词效果,并在PKU、MSR、CITYU和AS上取得了96.2%、96.4%、96.1%和95.8%的F1值。  相似文献   

20.
基于特征选择和最大熵模型的汉语词义消歧   总被引:4,自引:0,他引:4  
何径舟  王厚峰 《软件学报》2010,21(6):1287-1295
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval 2007:task #5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy))和宏平均值MacroAve(macro-average accuracy))上提升了3.10%和2.96%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号