首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
汉语意见型主观性文本类型体系的研究   总被引:1,自引:0,他引:1  
主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量出现在网上的电子公告板、论坛和博客等媒介中,受到广泛的关注,并成为研究意见挖掘方法和技术的语料。该文介绍了主观性文本的定义及其与客观性文本的差异,同时着重讨论了意见型文本的定义、特点、类型体系及其在意见挖掘技术中的应用。  相似文献   

2.
汉语意见型主观性文本是目前自然语言处理中的一个研究热点.该文介绍了汉语意见型主观性文本标注语料库构建方面的一些经验,讨论了设计和建设语料库方面的几个重要问题,包括语料的选取、标注、存储、检索和统计,以及语料库相关工具的设计等.汉语意见型主观性文本标注语料库与普通的语料库相比,其特点在于深度标注了主观性文本的词性、句法、语义和意见元素等信息,忠实记录了主观性文本的语言现象.汉语意见型主观性文本标注语料库的构建为人们分析和研究汉语主观性文本提供了有力的资源支持.  相似文献   

3.
可视化中文文本挖掘模型   总被引:13,自引:0,他引:13  
面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。在这样的需求驱动下,文本挖掘得到了长足的发展,并取得了相当的成功。由于目前在因特网上大多数的信息表现形式为文本形式,只有通过文本挖掘才能充分地利用信息资源。  相似文献   

4.
对评价文本的意见挖掘旨在提取由对象、特征、评价语和倾向构成的元组。当前方法主要依赖情感词和语言学启发信息获得主观句表达的意见,忽略了语义表达因素,导致意见召回率较低。该文以实际语料为数据基础,寻找意见表达方式的分布规律。文中明确了判别意见、主观句和客观句的准则,并对ChnSentiCorp语料集中12 000个句子进行了标注。统计结果表明,意见特征类别有限且领域差异大;特征呈随机分布,隐性特征占31.8%;客观句形式意见占36%;在表达方式上有5种主观句式、3种客观句式,意见在各句式上分布不平均。论文最后给出提升意见挖掘性能的5条策略。  相似文献   

5.
生物医学文本挖掘技术的研究与进展   总被引:1,自引:0,他引:1  
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。  相似文献   

6.
Web文本挖掘综述   总被引:1,自引:0,他引:1  
介绍了Web挖掘技术.接着蔓点对Web文本挖掘的关键技术作了详细阐述.  相似文献   

7.
基于规则的自动分类在文本分类中的应用   总被引:11,自引:3,他引:8  
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术(k近邻分类器、支持向量机分类器和朴素贝叶斯分类器),剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为:当类别之间分类特征的交叉变大时,分类精度呈下降趋势,在多层分类的情况下,此局限尤为突出。针对此局限性,为了提高自动分类的精度,我们引入了基于规则的自动分类来对其进行改进和扩充,并整合两种自动分类技术的优点,设计出了混合分类器系统,从而获得了比较理想的分类效果。  相似文献   

8.
文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。  相似文献   

9.
文本挖掘 挖掘知识   总被引:7,自引:0,他引:7  
面对今天浩如烟海的文本信息,如何帮助人们有效地收集和选择所感兴趣的信息,如何帮助用户在日益增多的信息中自动发现新的概念,并自动分析它们之间的关系,使之能够真正做到信息处理的自动化,这已经成为信息技术领域的热点问题。  相似文献   

10.
文本立场检测是文本意见挖掘领域的基础性研究,旨在分析文本中对特定目标所表现的立场倾向.随着互联网的飞速发展,用户对于公共事件、消费产品等的讨论文本呈指数级增长,文本立场检测研究对产品营销、舆情决策等具有重要意义.从目标类型、文本粒度以及研究方法3个角度对文本立场检测研究工作展开综述.首先,从目标类型角度,围绕单目标、多目标以及跨目标立场检测3个方面梳理了文本立场检测的不同研究任务;从文本粒度角度,对比了句子级、篇章级以及辩论文本立场检测的不同研究场景和方法;从研究方法角度,介绍了基于传统机器学习、主题模型、深度学习以及“2阶段”的方法,并指出各种方法的可取与不足之处.接着,对文本立场检测评测任务以及公开数据资源进行了归纳.最后,立足当前研究形势,总结了文本立场检测研究的应用领域,展望了未来发展趋势以及面临的挑战.  相似文献   

11.
汉语语句主题语义倾向分析方法的研究   总被引:7,自引:0,他引:7  
本文介绍了如何识别汉语语句主题和主题与情感描述项之间的关系以及如何计算主题的语义倾向(极性)。我们利用领域本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的极性。实验结果显示,与手工标注的语料作为金标准进行比较,用于识别主题和主题极性的改进后的SBV极性传递算法的F度量达到了72.41%。它比原来的SBV极性传递算法和VOB极性传递算法的F度量分别提高了7.6%和2.09%。因此,所建议的改进的SBV极性传递算法是合理和有效的。  相似文献   

12.
网络新闻口语评论文本中人物对象识别方法   总被引:1,自引:1,他引:0  
网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对象的可靠度进行评估,以获得稳定的识别线索;其次,根据线索划定处理窗口,利用改进频繁项挖掘算法,从窗口中提取候选人物对象;最后,对结果中存在的冗余进行优化处理。实验结果表明,新方法能够完整、有效地识别网络新闻口语评论文本中的人物对象。  相似文献   

13.
基于博主背景的博客倾向性检索归一化策略   总被引:1,自引:0,他引:1  
博客倾向性检索的目标是检索出不仅与特定查询主题相关而且包含针对该主题的评论的博文单元,并依据倾向性强度进行排序。目前大多数研究工作仅仅通过单个博文单元包含的主题倾向性强弱对博文进行排序。然而,博客是博主表达自己观点情感的媒介,博主的个性风格很大程度上影响着倾向性强度,忽略博主因素仅仅使用单个博文单元获取倾向性评分,会给倾向性评分带来偏差。针对这个问题,该文首先分析博主背景因素对倾向性评分的影响并建立博主背景模型,然后提出基于博主背景的博客倾向性检索归一化策略,最后使用该策略对基于概率推理模型的博客倾向性检索算法进行归一化。实验结果表明,基于博主背景的倾向性检索归一化策略能够更加合理地对博主单元进行排序。  相似文献   

14.
改进的OPTICS算法及其在文本聚类中的应用   总被引:1,自引:0,他引:1  
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。  相似文献   

15.
中文观点挖掘中的主观性关系抽取   总被引:1,自引:0,他引:1  
本文所针对的具体任务是抽取评价词和目标对象之间的关联关系。所采用的方法是将同一句子中共现的评价词与评价对象作为候选集合,应用最大熵模型并结合词、词性、语义和位置等特征进行关系抽取。我们将关系抽取引入观点挖掘,所提出的方法一定程度上解决了指代消解以及评价对象遗漏的问题。实验结果表明该方法的F值比取最近评价对象的Baseline方法有了15%的提高,并且发现程度副词能够帮助提高主观性关系抽取的性能。  相似文献   

16.
基于Web的双语平行句对自动获取   总被引:3,自引:1,他引:2  
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。  相似文献   

17.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号