首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
以中医方剂药物组成信息提取为背景,描述了突破中医药信息化过程中非结构化数据制约的一种方法,介绍了文本信息提取的主要技术步骤.所提出的信息提取框架涵盖了个性化中药词库建立、页面方剂信息定位、方剂组成文本分割、以及药物组成信息提取等.方剂信息的提取以基于正则表达式为主,同时考虑了中医药书籍的特殊性.组成文本分词采用了NPOS最短路径分词算法,提取药物时针对中医方剂中名词、量词、动词的特殊情况做了相应处理.实验表明,该方法能得到较高的提取正确率.  相似文献   

2.
中医方剂是中医药信息的核心内容,借助现代化的工具和手段是处理信息中医药研究的新趋势。在数量逾十万的方剂中,许多方剂之间存在着相似性,一些方剂是在基本方的基础上进行增加或修改形成,研究方剂的相似性有重要意义。定义了相似度的概念,利用自然语言处理领域的知识,基于文本分类算法,计算方剂相似度,为研究中医方剂提供有用信息。  相似文献   

3.
非结构化表格文档结构性较低,模式多样且数据冗杂,但此类文档里潜藏大量有价值数据,数据高精度抽取对分析数据价值存在增值作用,为此提出基于深度学习的非结构化表格文档数据抽取方法.在数据抽取前,采用基于循环和卷积神经网络的文本分类方法,对非结构化表格文档实施分类,获取所需表格文档,由此缩小后续数据抽取范围,提高抽取效率与精度...  相似文献   

4.
从漏洞信息当中抽取结构化信息对于安全研究而言有重要意义。安全研究者常需要在大规模的CVE数据中按特定要求进行筛选,或对漏洞进行自动化的分析测试。然而现有的CVE数据库中只包含了非结构化的文本描述和并不完备的辅助信息。从描述文本抽取结构化的信息能帮助研究者更好地组织与分析CVE。总结漏洞描述包含的七种核心要素,为结构化抽取建立模型,并将信息抽取转换为一个序列标注模型,构建数据集对其进行训练。实验表明,该模型能够以较高的准确率从CVE文本中抽取出各类关键信息。  相似文献   

5.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

6.
针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果.  相似文献   

7.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

8.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。  相似文献   

9.
基于XML的网页信息自动抽取   总被引:4,自引:0,他引:4  
周津  朱明  郑全 《计算机应用》2004,24(Z1):225-227
文章提出了一种基于XML的网页信息自动抽取的方法和框架,通过利用网页中信息的结构相似性和词法相似性,自动学习出网页信息的记录模式并归纳出相应的词法模式,从而避免了繁重的人为样本收集与标记工作,也免去了人工给定模式的工作,具备很强的自动性.同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中.  相似文献   

10.
事件抽取旨在从非结构化的文本中抽取出事件的信息,并以结构化的形式予以呈现。监督学习作为基础的事件抽取方法往往受制于训练语料规模小、类别分布不平衡和质量参差不齐的问题。同时,传统基于特征工程的事件抽取方法往往会产生错误传递的问题,且特征工程较为复杂。为此,该文提出了一种联合深度学习和主动学习的事件抽取方法。该方法将RNN模型对触发词分类的置信度融入在主动学习的查询函数中,以此在主动学习过程中提高语料标注效率,进而提高实验的最终性能。实验结果显示,这一联合学习方法能够辅助事件抽取性能的提升,但也显示,联合模式仍有较高的提升空间,有待进一步思考和探索。  相似文献   

11.
Over the last decade, ontology engineering has been pursued by “learning” the ontology from domain-specific electronic documents. Most of the research works are focused on extraction of concepts and taxonomic relations. The extraction of non-taxonomic relations is often neglected and not well researched. In this paper, we present a multi-phase correlation search framework to extract non-taxonomic relations from unstructured text. Our framework addresses the two main problems in any non-taxonomic relations extraction: (a) the discovery of non-taxonomic relations and (b) the labelling of non-taxonomic relations. First, our framework is capable of extracting correlated concepts beyond ordinary search window size of a single sentence. Interesting correlations are then filtered using association rule mining with lift interestingness measure. Next, our framework distinguishes non-taxonomic concept pairs from taxonomic concept pairs based on existing domain ontology. Finally, our framework features the usage of domain related verbs as labels for the non-taxonomic relations. Our proposed framework has been tested with the marine biology domain. Results have been validated by domain experts showing reliable results as well as demonstrate significant improvement over traditional association rule approach in search of non-taxonomic relations from unstructured text.  相似文献   

12.
概念图的构建是一项复杂的工程,在概念术语提取阶段往往需要领域专家花费大量时间手工完成.随着概念图在信息处理和知识管理系统中得到日益广泛的应用,仅仅依靠领域专家来手工提取概念术语生成概念图的办法已不能满足应用需求.基于此,提出结合网络爬虫技术和LSA的方法自动提取概念术语,生成概念图的方法,可以降低概念图制作的人工复杂度,高效、准确的构建概念图,可以大大扩展概念图的应用范围.从指定网站上爬取大量领域文本资源;进行文本预处理并抽取特征项;再利用LSA挖掘特征项与特征项、特征项与文本之间的潜在语义结构,消除噪音及冗余特征项,提取概念术语.实验结果表明,结合网络爬虫技术和LSA方法能够降低概念术语的提取过程中的人力复杂度,去除冗余概念,并提高准确性.  相似文献   

13.
对本体(ontology)的研究在计算机领域变得越来越广泛,但手工构造本体是一项繁琐而辛苦的任务,还会导致知识获取瓶颈。本体学习技术是利用本体工程技术和机器学习技术等众多学科技术来实现本体的(半)自动构建。本体的学习可以面向文本、知识库、结构化数据、半结构化数据和无结构数据。本文主要介绍了面向文本的本体学习,并对其中的学习内容、学习方法、学习工具、学习过程和系统评价等关键技术进行了说明,特别介绍了学习方法中的基于统计的方法、词汇句法模式法和形式概念分析法并对其优缺点做了简单的分析。  相似文献   

14.
关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关系抽取方法依据不同的视角进行了类别划分。随后,介绍了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。在此框架下,对关系抽取方法在面向深度学习的输入数据预处理、面向深度学习的神经网络模型设计等方面的具体工作进行了分析与评述,最后对未来的研究方向进行了探讨和展望。  相似文献   

15.
The wealth of unstructured text on the online web portal has made opinion mining the most thrust area for researchers, academicians, and businesses to extract information for gathering, analyzing, and aggregating human emotions. The extraction of public sentiment from the text at an aspect level has contributed exceptionally to various businesses in the marketplace. In recent times, deep learning-based techniques have learned high-level linguistic features without high-level feature engineering. Therefore, this paper focuses on a rigorous survey on two primary subtasks, aspect extraction and aspect category detection of aspect-based sentiment analysis (ABSA) methods based on deep learning. The significant advancement in the ABSA sector is demonstrated by a thorough evaluation of state-of-the-art and latest aspect extraction methodologies.  相似文献   

16.
事件抽取是构建知识图谱的关键任务之一,也是当前自然语言处理的研究热点和难点问题。事件抽取研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息,对人们认知世界有着深远的意义,在信息检索、智能问答、情感分析等应用场景有着重要的意义和价值。在公开国际测评和语料的推动下,事件抽取研究受到越来越多的学者关注,取得了许多的研究成果。按照事件抽取任务定义,有预先定义结构化的事件表示框架的框架表示事件抽取和通过事件实例中触发词及事件元素进行聚类的实例表示事件抽取。根据事件抽取方法的不同,可以分为基于模式匹配的方法和基于机器学习的方法两大类,中文事件抽取方法还要考虑中文语言特性问题。文中全面介绍了中文事件抽取的任务和方法,并总结展望了未来的发展趋势。  相似文献   

17.
Ontology is playing an increasingly important role in knowledge management and the Semantic Web. This study presents a novel episode-based ontology construction mechanism to extract domain ontology from unstructured text documents. Additionally, fuzzy numbers for conceptual similarity computing are presented for concept clustering and taxonomic relation definitions. Moreover, concept attributes and operations can be extracted from episodes to construct a domain ontology, while non-taxonomic relations can be generated from episodes. The fuzzy inference mechanism is also applied to obtain new instances for ontology learning. Experimental results show that the proposed approach can effectively construct a Chinese domain ontology from unstructured text documents.  相似文献   

18.
针对单标签特征提取方法不能有效解决多标签文本分类的问题,文中提出融合主题模型(LDA)与长短时记忆网络(LSTM)的双通道深度主题特征提取模型(DTFEM).LDA与LSTM分别作为两个通道,通过LDA为文本的全局特征建模,利用LSTM为文本的局部特征建模,使模型能同时表达文本的全局特征和局部特征,实现有监督学习与无监督学习的有效结合,得到文本不同层次的特征提取.实验表明,相比文本特征提取模型,文中模型在多标签分类结果上的多项指标均有明显提升.  相似文献   

19.
关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase 数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号