首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。  相似文献   

2.
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。  相似文献   

3.
传统的属性值对抽取方法通常应用于短文本,且仅限于抽取字符串属性。提出一种触发词与属性值对的联合抽取方法,不仅能够通过识别触发词确定长文本中的信息语句,从而确定二元语义属性的取值,而且能够考虑触发词、字符串属性和属性值的相互依赖关系,基于条件随机场构建联合标记模型,提高字符串属性值对的抽取性能。实验结果显示,与传统方法相比,所提出的方法能够抽取二元语义属性值对,并且对字符串属性的抽取准确率、召回率和F值分别提高15.3%、15.5%和15.5%,同时抽取所用平均时间降低76.29%。  相似文献   

4.
一种基于介词用法的灾难事件信息抽取方法   总被引:1,自引:0,他引:1  
为提高事件信息抽取技术的准确率,通过对文本中介词用法进行识别,采用一种条件随机场统计模型和介词用法信息相结合的事件信息抽取方法,完成抽取系统的编写,以达到理想的抽取结果。本文采用《人民日报》作为实验语料,通过大量实验,结果准确率达到90.33%,比不含介词用法信息的方法提高9.14%,证明了此方法的有效性。  相似文献   

5.
石翠 《软件》2014,(3):68-71
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

6.
石翠 《软件》2014,(2):75-78
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

7.
属性抽取的主要目标是从非结构化文本中获取实体的属性值。为了从文本中抽取出人物属性,通常需要大量的标注数据,然而这些数据资源却十分稀少。为了解决这个问题,该文从百科类网页的表格数据出发,构建了人物属性表,然后采用远程监督的方法得到大规模、多类别的人物属性标注语料,从而免去了人工标注的繁琐流程。针对新构建的数据集,分别使用条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)构建了属性抽取的两个基线模型。实验结果表明,BiLSTM-CRF取得比CRF更好的性能,其中BiLSTM-CRF的平均F1值为83.39%。  相似文献   

8.
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。  相似文献   

9.
采用CRF技术的军事情报术语自动抽取研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自“搜狐网络军事频道”的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。  相似文献   

10.
从非结构化商品描述文本中抽取结构化属性信息,对于电子商务实现商品的对比与推荐及用户需求预测等功能具有重要意义.现有结构化方法大多采用监督或半监督的分类方法抽取属性值与属性名,通过文法分析器分析属性值与属性名之间的文法依存关系,并根据关联规则实现属性值与属性名的匹配.这些方法存在以下不足:(1)需要人工标记部分属性值、属性名及它们之间的对应关系;(2)属性值-属性名匹配的准确度受到语言习惯、句意逻辑、语料库及属性名候选集质量的严重制约.提出了一种无监督的中文商品属性结构化方法.该方法借助搜索引擎,基于小概率事件原理分析文法关系来抽取属性值与属性名.同时,提出相对不选取条件概率场,并使用Page Rank算法来计算属性值与属性名的配对概率.该方法无需人工标记的开销,且无论商品描述中是否显式地包含相应的属性名,该方法都能自动抽取到属性值并匹配相应的属性名.使用百度搜索引擎上的真实语料,针对4类商品的中文描述进行了实验.实验结果验证了对于候选属性名的自动生成,所提出的基于搜索引擎搜索属性值,并在包含属性值的搜索结果中抽取一般名词的候选属性名生成方法与只在描述句中抽取一般名词的候选属性名生成方法相比,查全率提高了20%以上;对于非量化类属性,所提出的基于相对不选取条件概率场的属性值-属性名匹配方法与基于依存关联的方法相比,Rank-1的准确率提高了30%以上,平均MRR提高了0.3以上.  相似文献   

11.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。  相似文献   

12.
由于互联网语料的高噪音特性,传统的属性值抽取方法存在人工成本增加及训练集缺乏等问题。提出一种新的实体属性值抽取方法。利用机器阅读理解模型,从互联网语料中抽取出高质量的候选属性值,通过高效的众包验证机制调整各候选属性值的权重,得到最终抽取结果。实验结果表明,与OpenTag、QANET等模型相比,该机器阅读理解模型有效提升了候选属性值抽取的准确性,抽取准确率提升10%左右,同时通过众包验证方法,能够以较低的众包成本提高属性值抽取的整体性能。  相似文献   

13.
The rapid increase of user-generated content (UGC) is a rich source for reputation management of entities, products, and services. Looking at online product reviews as a concrete example, in reviews, customers usually give opinions on multiple attributes of products, therefore the challenge is to automatically extract and cluster attributes that are mentioned. In this paper, we investigate efficient attribute extraction models using a semi-supervised approach. Specifically, we formulate the attribute extraction issue as a sequence labeling task and design a bootstrapped schema to train the extraction models by leveraging a small quantity of labeled reviews and a larger number of unlabeled reviews. In addition, we propose a clustering By committee (CBC) approach to cluster attributes according to their semantic similarity. Experimental results on real world datasets show that the proposed approach is effective.  相似文献   

14.
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。  相似文献   

15.
一种基于粗糙集理论的规则提取方法   总被引:2,自引:1,他引:2  
规则提取是实现智能信息系统的重要环节,也是一个难点。针对信息系统中的规则提取问题,提出了一种基于粗糙集的研究方法,并对规则提取涉及到的属性约简、属性值约简等问题进行了研究。根据粗糙集中的不可分辨关系建立了可辫识向量,以利用可辨识向量的加法法则运算求得核属性以及属性重要性,然后以核属性为基础、属性重要性为启发信息,求得信息表的一个属性约简。在此基础上,利用条件属性与决策属性之间的对应关系,对信息表中的每条规则通过删除冗余属性值来完成信息表的属性值约简,最终实现规则提取。数值实例和试验表明本算法是有效、可行的。  相似文献   

16.
商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品“属性—值”关系。该方法包含四个关键技术 1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子“属性—值”关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。  相似文献   

17.
属性值是描述Ontology中类的重要信息,但是当前关于属性值的自动提取的研究并不多。该文提出一种基于WWW的Ontology属性值自动提取方法。论文首先提出了一种在小规模属性值种子集的基础上,包含属性值的句子的选择与属性值提取互动的方法。这种方法利用互联网信息的冗余性,自动抽取并扩充目标属性值集合。然后,为避免人工构造属性值种子集,提出种子集自动生成的方法。我们设计实验来计算提取结果的正确率和召回率,此外,我们还通过将填充后的Ontology信息用于网页正文提取任务来展示Ontology自动扩充结果的有效性。  相似文献   

18.
19.
辅助投保人了解保险产品的条款是保险应用关注的热点问题之一, 借助知识图谱技术辅助人身保险业务开展是一种可行的方法. 本文首先从多源数据中提取并构建人身保险知识图谱LIKG. 具体而言, 构建BERT-IDCNN-BiLSTM-CRF模型提取非结构化文本数据的实体, 通过多种短文本相似度算法以及集成排序算法完成实体对齐; 设计并使用Bootstrapping和分类预测两阶段抽取方法对保险产品进行属性填充. 然后, 根据构建的LIKG, 设计开发原型系统, 该系统使用实体抽取和属性抽取算法提供知识获取功能、设计CF-IIF指标提供属性推荐功能以及实现可视化界面帮助用户快速掌握人身保险产品的信息, 展示LIKG的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号