共查询到10条相似文献,搜索用时 15 毫秒
1.
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取. 相似文献
2.
中文电子病历命名实体和实体关系语料库构建 总被引:1,自引:0,他引:1
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 相似文献
3.
目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CRF输入,利用双向LSTM神经网络强大的特征提取能力,以及CRF在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的F1值可以达到80.42%,与传统流水线方法以及其他方法相比,实验效果更佳。 相似文献
4.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。 相似文献
5.
基于核函数中文关系自动抽取系统的实现 总被引:14,自引:0,他引:14
实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统. 相似文献
6.
实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果. 相似文献
7.
实体关系自动抽取 总被引:36,自引:7,他引:36
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。 相似文献
8.
9.
10.
命名实体间关系的抽取是信息抽取中的一个重要研究问题,该文提出了一种从大量的文本集合中自动抽取命名实体间关系的方法,找出了所有出现在同一句子内、词语之间的距离在一定范围之内的命名实体对,把它们的上下文转化成向量。手工选取少量具有抽取关系的命名实体对,把它们作为初始关系的种子集合,通过自学习,关系种子集合不断扩展。通过计算命名实体对和关系种子之间的上下文相似度来得到所要抽取的命名实体对。通过扩展关系种子集合的方法,抽取的召回率和准确率都得到了提高。该方法在对《人民日报》语料库的测试中,取得了加权平均值F-Score为0.813的效果。 相似文献