首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
态度挖掘是近年来文本挖掘领域的热点课题之一,旨在发现文本中作者的主观态度倾向,为基于舆情的决策过程提供支持。目前已有的态度挖掘算法绝大多数都基于情感词典来识别情感词,在此基础上判别句子或文本的总体态度倾向。然而,手工构造和维护一部完善的情感词典是不现实的。对中文情感词的极性判别问题进行了研究,提出了基于直推式学习的中文情感词极性判别算法。该算法以少量情感词为种子,利用词典中词汇的解释信息,直推出其他词的情感极性。与使用相同情感种子词的解释信息作为训练数据的有监督学习算法相比,直推式学习算法的识别精度提高了20%左右。  相似文献   

2.
大数据时代,文本的情感倾向对于文本潜在价值挖掘具有重要意义,然而人工方法很难有效挖掘网络上评论文本的潜在价值,随着计算机技术的快速发展,这一问题得到了有效解决。在文本情感分析中,获取词语的情感信息对于情感分析至关重要,词向量方法一般仅对词语的语法语义进行建模,但是忽略了词语的情感信息,无法更好地进行情感分析。通过TF-IDF算法模型获得赋权矩阵,构建停用词表,同时根据赋权矩阵生成Huffman树作为改进的CBOW算法的输入,引入情感词典生成情感标签辅助词向量生成,使词向量具有情感信息。实验结果表明,提出的方法对评论文本中获得的词向量能够较好地表达情感信息,情感分类结果优于传统模型。因此,该模型在评论文本情感分析中可以有效提升文本情感分类效果。  相似文献   

3.
针对电网调度领域实体识别准确率较低的问题,提出一种融合多头注意力机制和双向长短时记忆网络的电网调度领域中文命名实体识别方法。利用词向量表示电网调度语音识别后语句,并将生成的词向量序列输入双向长短时记忆网络(BiLSTM)挖掘其上下文语义特征,引入多头注意力机制重点关注文本中的实体词,挖掘其隐藏特征,同时通过条件随机场(CRF)计算序列标签的联合概率标注出实体识别结果。根据电网调度语音识别后文本特点自建标注数据集,并将电网调度语音识别文本中的命名实体细粒度划分为参数、设备、操作、系统、组织5个类别进行实验。其结果表明,该方法对电网调度领域实体识别具有更高的准确率和召回率,且F1值可达到93.63%,切实解决了电网调度领域实体识别任务中标注数据稀少和精度较低的问题,有助于电网调度领域知识图谱的构建。  相似文献   

4.
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。  相似文献   

5.
水利信息分类是水利科学数据共享标准化最为重要的一项工作,因此对水利领域大量数据信息的分类十分有必要。针对水利文本数据非结构化的特点,设计一个基于主题模型的水利文本信息分类方案,通过结合LDA主题模型和GloVe词向量模型的优点,提出一种新的主题模型。利用AdaBoost算法改进KNN分类器,在迭代中对分类器的错误进行适应性调整,最终得到分类器的集合。实验结果表明,使用AdaBoost提升KNN对于水利文本分类效果良好,分类效果远好于常见的朴素贝叶斯和决策树,和原来的KNN分类器相比,微观准确率提高1.1个百分点,宏观准确率提高了4.1个百分点,说明在水利文本分类中使用AdaBoost算法可提升KNN分类器的有效性。  相似文献   

6.
社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于各种类型的文本,包括非结构化、半结构化和结构化文本。然而,针对聊天对话文本的应用,常见的预训练模型难以捕捉到其独特的结构特征,仍需进一步探索与改进。对此,提出了一种基于对比学习的聊天摘要算法MGCSum。该算法无需人工标注数据集,便于学习和迁移。首先使用文档频数、词项频数和信息熵构造了针对聊天文本的停用词列表,去除聊天中的干扰信息;其次,从词语和主题两个粒度进行自监督对比学习,识别对话中的结构信息,挖掘聊天中的关键词和不同主题信息。在聊天摘要公开数据集SAMSum和金融欺诈对话数据集FINSum上进行实验,结果表明,与当前主流的聊天摘要方法相比,该算法在摘要的连贯性、信息量和ROUGE评价指标上均有显著提升。  相似文献   

7.
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。  相似文献   

8.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

9.
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系。针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法。通过对BERT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的BERT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性。进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱。通过构建人工标注的数据集,进行实验验证。实验表明所提出的方法可以有效解决非结构化金融人员简历文本信息提取问题,有效地构建金融领域人物关系图谱。  相似文献   

10.
命名实体识别技术是自然语言处理领域的重要任务之一。但岩石文本信息中的命名实体存在边界不清、分词困难、误差传播、计算效率慢等问题。基于岩石文本信息进行知识抽取对油气勘探领域的研究具有重大意义。为此,该文首先构建岩石文本数据集,并提出Lexicon-BiLSTM-CRF网络模型应用于非结构化的岩石文本上,该模型首先经过Lexicon机制获得每个字符的所有匹配词,从而解决了边界不清、分词困难的问题,在此基础上提升了计算效率。然后通过双向长短期记忆网络(BiLSTM)提取上下文语义特征,将语义向量传入条件随机场(CRF)层并采用维特比算法解码,降低了错误标签的输出概率并预测实体标注标签,最终实现岩石文本的命名实体抽取任务。在构建的岩石文本数据集的基础上进行几组对比实验,验证了该方法在准确率和召回率上具有一定提升。  相似文献   

11.
在电网系统中,故障检测是关系到电网正常运行的关键。采用小波变换实现对原始电网信息系统采样信号的特征提取,然后使用遗传算法对最为重要的特征的进行优化和搜索,优化后的数据输出至神经网络模型,神经网络模型对接收到的数据信息进行状态识别、特征分类,有效地提高了分类的准确性和故障诊断的可靠性。试验数据显示本设计的方案大大提高了计算速度,有利于用户快速从电网数据中把握重要信息,分析影响电网信息自动化系统故障数据信息,从而从根源上解决智能电网运行过程中存在的问题。为智能电网的健康、绿色运行提供较为有价值的技术保障,同时也具有较好的学术研究意义以及工程应用价值。  相似文献   

12.
随着计算流体力学领域待解决问题复杂程度的不断提高,传统的统一贴体结构网格已不能很好地满足针对复杂外形的高精度网格生成需求,而非结构网格以其独特优势受到CFD工作者的普遍关注。带有附面层的非结构网格是非结构网格生成的难点。进行了非结构四面体网格的生成方法研究,同时结合Spider软件平台中结构网格参数化附面层推进的技术优势,进行了基于Spider软件平台中非结构网格生成模块“UGCS”的开发。通过分析大量网格生成实例中网格质量和数值计算结果,验证了算法的可靠性与鲁棒性。  相似文献   

13.
提出了一种新颖的文本可逆数字水印算法。对载体文本进行预处理,将原始可替换同义词的编码值分组作为信息位进行汉明编码,将获得的监督码元比特流利用矩阵编码的方式通过插入空格嵌入到文本中。水印信息则分组利用同义词修改位置编码的方式选定同义词进行替换来实现嵌入。在提取时利用汉明码的译码原理与可替换同义词分组位置编码规则,提取出水印信息并对原始文本进行无损恢复,即实现了文本可逆数字水印。该算法不仅能有效恢复出原始文本,且具有良好的隐蔽性,增强了水印方案的实际应用能力。  相似文献   

14.
A fully-automatic grid generator and an unstructured upwind method for the Euler equations are developed in order to achieve automation in flow computations. The unstructured grid is generated using two techniques: a geometry-adaptive refinement; and a solution-adaptive refinement. The former introduces information about the flowfield geometry into the grid, and the latter introduces the fluid physics. A combination of these two techniques enables the generation of a grid in a fully-automatic manner. Flowfields are solved by an unstructured upwind solver, which is an extension of the flux-vector splitting method of Van Leer for use on arbitrary-shaped unstructured meshes. This robust flow solver with the automatic grid generator can be a useful CFD tool for routine engineering work. The method is applied to external and internal flow problems to demonstrate its capability.  相似文献   

15.
在雾霾严重时期,部分地方政府会要求污染企业采取关停措施,以减少污染物的排放。但某些污染企业为追求经济利益,在被要求关停期间仍然违规生产,由于其生产行为具有较高的隐蔽性,环保部门难以判定其是否在存在违规生产行为,同时也无法准确掌握违规生产企业的生产时段,这严重阻碍了环保督查工作的开展。本文针对上述问题,给出了一种污染企业违规生产监控方法。该方法基于污染企业的日用电量与日用电最大负荷,实现了对污染企业违规生产行为的研判。另外,该方法还基于污染企业的用电负荷数据,实现了对污染企业生产时段的分类。该方法为相关部门准确的掌握污染企业的生产规律提供了有效的技术手段。本文利用污染企业的用电负荷历史数据对该方法进行了验证,结果表明该方法有效可行。  相似文献   

16.
针对水印文本的篡改检测和恢复问题,利用Hopfield网络的联想记忆功能,提出一种Hopfield神经网络与同义词替换技术相结合的文本认证与同义词替换的可恢复水印算法.算法首先将文本分为可替换同义词和非替换词语,利用可替换同义词在其同义词库中的位置及汉字笔画和结构特征,分别提取文本可替换同义词的特征信息和非替换词语的特征信息.然后通过同义词替换实现水印嵌入,并将水印信息和非替换词语的特征信息输入Hopfield神经网络进行训练,实现篡改检测与可替换同义词的恢复功能.实验仿真表明,该算法具有较好的鲁棒性、篡改检测性和恢复能力,能篡改检测和定位可替换同义词、非替换词语,实现认证功能,且能恢复被替换的同义词,实现恢复功能.  相似文献   

17.
随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成为了一个迫在眉睫的重要研究课题。本文通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行了讨论和研究,并将此算法应用到了中国移动的投诉数据分类系统中。在系统实施后,非常有效地提高了投诉数据的处理效率,从而印证所提出分类算法及系统框架的有效性。  相似文献   

18.
Domain-specific knowledge is often recorded by experts in the form of unstructured text. For example, in the medical domain, clinical notes from electronic health records contain a wealth of information. Similar practices are found in other domains. The challenge we discuss in this paper is how to identify and extract part names from technicians repair notes, a noisy unstructured text data source from General Motors’ archives of solved vehicle repair problems, with the goal to develop a robust and dynamic reasoning system to be used as a repair adviser by service technicians. In the present work, we discuss two approaches to this problem. We present an algorithm for ontology-guided entity disambiguation that uses existing knowledge sources, such as domain-specific taxonomies and other structured data. We illustrate its use in the automotive domain, using GM parts ontology and the unit structure of repair manuals text to build context models, which are then used to disambiguate mentions of part-related entities in the text. We also describe extraction of part names with a small amount of annotated data using hidden Markov models (HMM) with shrinkage, achieving an f-score of approximately 80%. Next, we used linear-chain conditional random fields (CRF) in order to model observation dependencies present in the repair notes. Using CRF did not lead to improved performance, but a slight improvement over the HMM results was obtained by using a weighted combination of the HMM and CRF models.  相似文献   

19.
针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠度及用户答案可靠度。依据真值发现的一般假设,无监督学习上下文向量,并最终获得可靠答案。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。  相似文献   

20.
This paper presents a scalable framework for real-time raycasting of large unstructured volumes that employs a hybrid bricking approach. It adaptively combines original unstructured bricks in important (focus) regions, with structured bricks that are resampled on demand in less important (context) regions. The basis of this focus+context approach is interactive specification of a scalar degree of interest (DOI) function. Thus, rendering always considers two volumes simultaneously: a scalar data volume, and the current DOI volume. The crucial problem of visibility sorting is solved by raycasting individual bricks and compositing in visibility order from front to back. In order to minimize visual errors at the grid boundary, it is always rendered accurately, even for resampled bricks. A variety of different rendering modes can be combined, including contour enhancement. A very important property of our approach is that it supports a variety of cell types natively, i.e., it is not constrained to tetrahedral grids, even when interpolation within cells is used. Moreover, our framework can handle multi-variate data, e.g., multiple scalar channels such as temperature or pressure, as well as time-dependent data. The combination of unstructured and structured bricks with different quality characteristics such as the type of interpolation or resampling resolution in conjunction with custom texture memory management yields a very scalable system.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号