首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
张璞  李逍  刘畅 《计算机工程》2019,45(8):217-223
分析商品评论中评价对象和评价短语的词性和句法关系,提出一种使用规则模板进行评价搭配抽取的方法。通过词性、依存句法分析及语义依存分析结果,设计核心搭配抽取规则。引入COO算法及改进的ATT链算法,根据核心评价对象与短语的词性进一步制定识别完整评价对象与短语的规则模板,抽取评价信息。中文商品评论数据集上的实验结果表明,与最近距离方法、SBV极性传递方法和基于核心句的方法相比,该方法的F1值分别提升了43.98%、36.30%和24.83%。  相似文献   

2.
涉案微博的评价对象抽取是一个特定领域的任务,其评价对象词表达多样且含义与通用领域不同,仅依赖于通用领域的词嵌入无法很好地表征这些评价对象词.为此,提出了一种综合利用领域词嵌入和通用词嵌入的涉案微博评价对象抽取方法.首先对涉案微博文本进行预训练,得到具有涉案领域特征的嵌入层,其次将微博评论分别输入两个嵌入层,得到不同领域对评价对象的表征结果并进行拼接操作,然后通过卷积层抽取出与案件相关的特征,最后利用分类器对序列进行标记,以提取涉案微博评价对象.实验结果表明,所提方法的F1值在#重庆公交车坠江案#和#奔驰女司机维权案#的两个数据集上分别达到了72.36%和71.02%,较现有的基准模型有所提升,验证了不同领域词嵌入对涉案微博评价对象抽取的影响.  相似文献   

3.
针对评论文本中评价对象的抽取任务,需要设计特征模板,而抽取结果往往受特征模板影响大的问题,提出一种端到端的神经网络评价对象抽取模型。分析条件随机场CRF在评价对象抽取任务中的特征模板设计;使用词向量嵌入模型在语义空间表示词语,并分析注意力机制在神经网络模型中的作用;将条件随机场模型与循环神经网络模型LSTM相结合,形成基于注意力机制的LSTM-CRF-Attention模型。在NLPCC2012和NLPCC2013两个数据集上进行实验,该模型的F值比CRF模型分别提高8.15%和11.03%。实验结果也同时验证词向量具备表示词语特征的能力,注意力机制能够有效提高神经网络模型中的评价对象抽取效果。  相似文献   

4.
面向特定领域的产品评价对象自动识别研究   总被引:2,自引:0,他引:2  
产品评价对象的自动识别是文本观点信息抽取和倾向性分析中的重要研究课题之一。该文针对汽车评论,提出了一种不依赖外部资源的无指导评价对象自动识别方法。该方法首先综合使用词形模板和词性模板,采用模糊匹配方法和剪枝法抽取候选评价对象。然后,从候选对象集中,采用双向Bootstrapping方法识别出产品评价对象。最后,通过采用K均值聚类方法对产品评价对象进行聚类,实现从评价对象中自动抽取产品名称和产品属性。实验结果表明,该方法对产品评价对象识别的F值达到58.5%,产品名称识别的F值达到69.48%。
  相似文献   

5.
现有突发事件网民情感分析研究多为粗粒度的情感分析,为了精准地分析突发事件中网民对不同对象的情感,提出一种基于RoBERTa词嵌入和交互注意力的突发事件细粒度情感分析方法。通过构建RoBERTa-CRF评论对象抽取模型,完成突发事件相关评论对象的抽取。利用交互注意力机制和预训练模型构建RoBBETa-IAN模型,实现评论对象的情感分析。最后,分析突发事件中网民对不同对象的情感,并可视化展示。在构建的微博新闻评论数据集上,RoBERTa-CRF评论对象抽取模型和RoBERTa-IAN情感分析模型的F1值分别为0.76和0.79。  相似文献   

6.
评价搭配抽取是情感分析的基础任务之一。目前大部分抽取方法都是以依存句法分析为基础,但依存分析对中文评论文本的分析结果不稳定。针对此问题,提出了融合核心句抽取与依存关系的评价搭配抽取方法。该方法利用核心句抽取规则简化评论句结构,在此基础上进行依存句法分析,根据人工构建的依存关系模板进行评价搭配的抽取,并引入潜在评价搭配抽取规则抽取文本中省略评价对象的评价搭配。在中文酒店评论语料中进行试验,与基于依存分析的方法相比,该方法的F值提高约7%,证明了该方法的有效性。  相似文献   

7.
《计算机工程》2017,(6):169-176
传统评价对象抽取方法较少考虑低频、结构复杂和信息量较大的评价对象。为此,针对中文产品评论提出一种完整评价对象抽取方法。利用词性和语法分析结果提取基础词单元,通过每个词单元的完整值和缺失值对其进行扩展,根据连接稳定性判断扩展后的词单元是否合理,得到候选评价对象集合,采用过滤策略对候选评价对象集合进行过滤,获得最终的评价对象集合。在真实数据集上的实验结果表明,该方法对包含低频和分词结构复杂的评价对象有较好的抽取效果。  相似文献   

8.
中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该方法首先通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。实验结果显示,与基于线性链条件随机场的识别方法相比,该方法准确率、召回率和F1值分别提升1.62%、5.75%和4.17%,能有效地识别复合词评价对象和未登录评价对象,从而提高中文句子评价对象的识别精度。  相似文献   

9.
网络评论短文本的细粒度情感分析是文本挖掘的研究热点,评价对象作为细粒度情感分析的基础,在识别文本过程中具有重要作用,如何充分利用上下文信息并对其进行有效表示是评价对象识别的难点所在。提出一种结合词特征与语义特征的评价对象识别方法。针对商品评论语料,使用条件随机场进行评价对象识别,在词特征、依存句法特征的基础上引入语义特征,并将各特征进行组合,以充分利用上下文信息,提高评价对象的识别准确性。在手机评论和酒店评论2个数据集上进行实验,结果表明,该方法的识别准确性较高,且F值分别高达75.36%和82.64%。  相似文献   

10.
该文提出一种基于句法规则和HowNet词典的商品评论细粒度观点分析方法,主要包括三个模块: 评价对象抽取、评价对象—评价词对抽取、评价对象总体观点得分计算。具体思路为: 首先,结合词性标注和频繁项集方法构建一个初始的评价对象词典,便于重用和修正商品的总体评价维度;其次,基于爬取的电商评论文本真实数据设计了评价对象—评价词对抽取规则;最后,借助HowNet词典分别计算不同评价维度的观点综合得分,进而对比同一商品不同品牌在各个维度下的总体观点评价,该方法在商品评论语料集上验证了有效性。  相似文献   

11.
在如今的软件开发中, 开源软件的使用越来越普遍, 但是对大型开源软件的理解和维护仍然是一项复杂的工作. 开源软件通常缺乏完善的文档和注释, 想要完整的理解开源系统难度较大, 研究界产生了一种通过分析大型开源软件的源代码, 进而深入理解系统, 发现和修复系统漏洞的软件分析型任务. 源代码分析注释是软件分析型任务的一项重要产出, 它是一种以注释形式存在的细粒度代码分析报告, 数量庞大, 难以快速做出质量评价. 在传统的软件质量评价中, 对注释的评价通常局限于覆盖度和文本长度, 不能满足源代码分析注释质量评价的要求. 为了更好的评价源代码分析注释的质量, 本文结合现有的对代码注释质量评价的研究以及信息质量领域的评价方法, 提出了一种综合考虑客观质量属性和主观质量属性的质量评价框架. 结合实际的项目数据分析, 本文的方法可以更有效的检测出注释中的冗余以及无关内容, 发现相关质量问题, 从而对源代码分析注释进行更全面的质量评价.  相似文献   

12.
随着移动互联网的迅猛发展,社交网络平台充斥着大量带有情绪色彩的文本数据,对此类文本中的情绪进行分析研究不仅有助于了解网民的态度和情感,而且对科研机构和政府掌握社会的情绪变化及走向有着重要作用。传统的情感分析主要对情感倾向进行分析,无法精确、多维度地描述出文本的情绪,为了解决这个问题,文中对文本的情绪分析进行研究。首先针对不同领域文本数据集中情绪标签缺乏的问题,提出了一个基于深度学习的可迁移情绪分类的情感分析模型FMRo-BLA,该模型对通用领域文本进行预训练,然后通过基于参数的迁移学习、特征融合和FGM对抗学习,将预训练模型应用于特定领域的下游情感分析任务中,最后在微博的公开数据集上进行对比实验。结果表明,该方法相比于目前性能最好的RoBERTa预训练语言模型,在目标领域数据集上F1值有5.93%的提升,进一步加入迁移学习后F1值有12.38%的提升。  相似文献   

13.
Stemming is a program that matches the morphological variants of the word to its root word. Stemming is extensively used as a pre-processing tool in the field of natural language processing, information retrieval, and language modeling. Though a lot of advancements have been made in the field, yet organized arrangement of the previous work and efforts are lacking in this field. In this paper, we present a review of the text stemming theory, algorithms, and applications. It first describes the existing literature relevant to text stemming by classifying it according to certain key parameters; then it describes the deep analysis of some well-known stemming algorithms on standard data sets. In the end, the current state-of-the-art and certain open issues related to unsupervised stemming are presented. The main aim of this paper is to provide an extensive and useful understanding of the important aspects of text stemming. The open issues and analysis of the current stemming techniques will help the researchers to think of new lines to conduct research in future.  相似文献   

14.
In this paper, we present a formalism called feature grammar and its application to several problems of semantic analysis. Our extension concerns the structure of the feature value sets, which can be complex, and the definition of unification, which is dependent on this structure. Moreover, we introduce generation rules for feature symbols in order to determine well-formed symbols, which form the alphabet of a formal language for natural language analysis.  相似文献   

15.
陈刚  陈莘萌 《计算机工程》2006,32(24):17-19
用独立分量分析的方法计算每一种待识别语言的特征向量空间的基函数组及其系数向量各分量的概率分布,并用这两组信息来惟一刻画一种语言。测试音频通过上述两组信息计算针对每一种语言的后验概率,具有最大后验概率的语言就是最终的识别结果。实验结果表明,该方法具有快速、高效的特点。  相似文献   

16.
Entity relation classification aims to classify the semantic relationship between two marked entities in a given sentence,and plays a vital role in various natural language processing applications.However,existing studies focus on exploiting mono-lingual data in English,due to the lack of labeled data in other languages.How to effectively benefit from a richly-labeled language to help a poorly-labeled language is still an open problem.In this paper,we come up with a language adaptation framework for cross-lingual entity relation classification.The basic idea is to employ adversarial neural networks(AdvNN)to transfer feature representations from one language to another.Especially,such a language adaptation framework enables feature imitation via the competition between a sentence encoder and a rival language discriminator to generate effective representations.To verify the effectiveness of AdvNN,we introduce two kinds of adversarial structures,dual-channel AdvNN and single-channel AdvNN.Experimental results on the ACE 2005 multilingual training corpus show that our single-channel AdvNN achieves the best performance on both unsupervised and semi-supervised scenarios,yield-ing an improvement of 6.61%and 2.98%over the state-of-the-art,respectively.Compared with baselines which directly adopt a machine translation module,we find that both dual-channel and single-channel AdvNN significantly improve the performances(F1)of cross-lingual entity relation classification.Moreover,extensive analysis and discussion demonstrate the appropriateness and effectiveness of different parameter settings in our language adaptation framework.  相似文献   

17.
董桂云  韩培友 《计算机工程》2007,33(10):215-217
在研究体绘制技术的基础上,提出了体透明分析的新思想,给出了基于广义模糊粗糙集GFRS的体数据分割算法和体数据对比度增强算法,研究了这些技术在体透明分析系统中的应用,并利用第4代交互数据语言IDL6.2设计实现了体透明分析系统。中国和美国首例男女人体数据在该系统上的成功验证,标志着该系统有一定的理论价值、实用价值及广阔的市场前景。  相似文献   

18.
近年来,抖音、快手、微视等短视频APP取得了巨大成功,用户拍摄并上传到APP平台上的视频数量暴增。在这种信息过载的环境下,为用户挖掘并推荐其感兴趣的视频成为了视频发布平台面临的难题,因此为这些平台设计高效的视频推荐算法显得尤其重要。文中针对媒体大数据挖掘和推荐领域的数据集稀疏性高和规模巨大的问题,提出一种面向多维特征分析过滤的视频推荐算法。首先,从用户行为和视频标签等多个维度对视频进行特征提取,然后进行相似性分析,加权计算视频相似度,从而获取相似视频候选集,并对相似视频候选集进行过滤,再通过排序选择评分最高的若干个视频推荐给用户。最后,基于MovieLens公开数据集,使用python3语言实现了文中提出的视频推荐算法。在数据集上进行的大量实验表明,相比传统的协同过滤算法,文中提出的面向多维特征分析过滤的视频推荐算法将推荐结果的准确率提升了6%,召回率提升了4%,覆盖率提升了18%。实验数据充分说明,从多个维度考虑视频之间的相似性,并配合大规模矩阵分解技术,在一定程度上缓解了数据集稀疏性高、数据量巨大的难题,从而有效地提高了推荐结果的准确性、召回率和覆盖率。  相似文献   

19.
Governments are increasingly publishing their data to enable organizations and citizens to browse and analyze the data. However, the heterogeneity of this Open Government Data hinders meaningful search, analysis, and integration and thus limits the desired transparency.In this article, we present the newly developed data integration operators of the Stratosphere parallel data analysis framework to overcome the heterogeneity. With declaratively specified queries, we demonstrate the integration of well-known government data sources and other large open data sets at technical, structural, and semantic levels. Furthermore, we publish the integrated data on the Web in a form that enables users to discover relationships between persons, government agencies, funds, and companies. The evaluation shows that linking person entities of different data sets results in a good precision of 98.3% and a recall of 95.2%. Moreover, the integration of large data sets scales well on up to eight machines.  相似文献   

20.
In defect prediction studies, open-source and real-world defect data sets are frequently used. The quality of these data sets is one of the main factors affecting the validity of defect prediction methods. One of the issues is repeated data points in defect prediction data sets. The main goal of the paper is to explore how low-level metrics are derived. This paper also presents a cleansing algorithm that removes repeated data points from defect data sets. The method was applied on 20 data sets, including five open source sets, and area under the curve (AUC) and precision performance parameters have been improved by 4.05% and 6.7%, respectively. In addition, this work discusses how static code metrics should be used in bug prediction. The study provides tips to obtain better defect prediction results.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号