首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
微博客蕴含交通事件信息抽取的自动标注方法   总被引:1,自引:0,他引:1  
微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。  相似文献   

2.
电子病历是诊疗过程中记录患者健康状况的档案, 文本中分布着大量的医学实体, 其中蕴含着丰富的医学信息. 目前医学领域的关系抽取模型主要是通过关系分类的方法识别两个给定医学实体之间的语义关系. 中文电子病历具有实体高密度分布的特点. 针对这个问题, 本文提出了一种基于条件提示与序列标注的关系三元组识别方法, 将关系三元组识别任务转换为序列标注任务. 关系三元组中的头实体和关系类型作为条件提示信息, 通过序列标注方法识别电子病历文本中与条件提示信息有关联的尾实体. 在中文电子病历数据集上的实验证明本文方法能有效识别中文电子病历中的关系三元组.  相似文献   

3.
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。  相似文献   

4.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

5.
文本信息抽取是处理海量文本数据的手段,事件信息抽取是其中最具挑战性的任务之一.提出了一种基于条件随机场的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场用于句子中谓词的语义角色标注.应用该方法对"职务变动"和"会见"两类事件的事件要素及其语义角色进行标注,在各自的测试集上分别获得了77.3%和74.2%的综合指标F值.  相似文献   

6.
为了强化文本蕴含系统深层语义分析与推理能力,该文提出了基于事件语义特征的中文文本蕴含识别方法。该方法基于事件标注语料生成事件图,将文本间的蕴含关系转化为事件图间的蕴含关系;利用最大公共子图的事件图相似度算法计算事件语义特征,与统计特征、词汇语义特征和句法特征一起使用支持向量机进行分类,得到初步实验结果,再经过基于事件语义规则集合的修正处理得到最后的识别结果。实验结果表明基于事件语义特征的中文文本蕴含识别方法可以更有效地对中文文本蕴含关系进行识别。  相似文献   

7.
罗军  高琦  王翊 《计算机工程》2010,36(23):85-87
实现语义Web目标的一个重要前提是利用本体词汇标注Web资源。为此,提出一种基于弱监督(Bootstrapping)的本体标注方法。对给定的本体进行解析,生成规则文件,通过文本分类筛选出领域文档。采用Bootstrapping的方法进行信息标注抽取和本体推理,经过几次循环后,只利用少量的训练文本就能达到较好的标注效果。实验证明,该方法实体识别准确率高,标注效果好。  相似文献   

8.
周晶 《计算机工程》2010,36(24):192-194
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。  相似文献   

9.
事件往往围绕主题展开,相互间存在相关性。在大数据时代,从海量信息中筛选出和某个主题相关的事件,有助于信息抽取、文本摘要、文本生成等自然语言处理任务。首先提出一种相关事件的标注方法,并标注了一个中文事件相关性语料库。然后,初步提出了一个基于多种特征的相关性事件识别方法。在标注语料上的实验表明,性能在基准系统上F1值提高了4.08%。  相似文献   

10.
地理信息与数据是客观知识世界的重要组成部分。研究如何从大量非结构化的信息中自动抽取地理实体位置关系具有重要意义。提出一种基于语义文法的地理实体位置关系获取方法,该方法可准确地从网页文本中获取多个地理实体之间的复合位置关系。首先,设计一种反映地理实体位置关系的语义文法GeoRSG。GeoRSG反映了地理实体位置关系的层次分类关系,并采用基于规则的方式刻画地理实体位置关系在文本中的语言表达方式。然后,实现地理实体位置关系解析器GeoRSG Parser。该解析器利用GeoRSG对文本进行解析,获得谓词表达形式的位置关系知识。实验结果显示,该方法从1000条语句中获取了81条三元和816条二元地理实体位置关系,并且取得了88.85%的正确率。  相似文献   

11.
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。  相似文献   

12.
13.
在复杂多样场景下,极少存在同时对英文和中文都具有较优识别效果的大数据标注方法.因此文中提出针对复杂多样文本识别场景的数据生成和多阶段自循环训练算法.按照定义的生成数据参数随机生成文本数据,免去数据标注过程.在卷积循环神经网络的基础上,进行多阶段自循环训练,在循环过程中通过控制数据生成策略不断提升样本的识别精度.实验表明,文中算法在多个公开英文数据集及中文特定的复杂文本场景下都具有良好的识别性能.  相似文献   

14.
许高建  胡学钢  王庆人 《微机发展》2007,17(12):122-124
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

15.
为解决在互联网文本信息爆炸性增长的前提下,在大规模文本数据中如何发现隐含的、有价值的潜在知识的问题,提出基于多层次文本聚类的文本知识挖掘方法,针对不同规模的文本数据进行不同粒度的聚类,实现不同层次知识的挖掘。针对最广义层次的文本知识挖掘可实现各主题事务划分,针对子级分类数据的文本知识挖掘可发现下一层次主题分类,针对自定义层次的文本知识挖掘可发现该事件中存在的具体细节。对诉求实际数据的分析结果表明,该方法可在所有诉求数据中挖掘出各种诉求主题,精确挖掘出其中的细节问题,为管理者提供数据和决策支持,提高服务效率。  相似文献   

16.
文本挖掘中的中文分词算法研究及实现   总被引:4,自引:0,他引:4  
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

17.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

18.
汉语时间关系抽取与计算   总被引:1,自引:1,他引:0  
时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。  相似文献   

19.
We present physiological text annotation, which refers to the practice of associating physiological responses to text content in order to infer characteristics of the user information needs and affective responses. Text annotation is a laborious task, and implicit feedback has been studied as a way to collect annotations without requiring any explicit action from the user. Previous work has explored behavioral signals, such as clicks or dwell time to automatically infer annotations, and physiological signals have mostly been explored for image or video content. We report on two experiments in which physiological text annotation is studied first to (1) indicate perceived relevance and then to (2) indicate affective responses of the users. The first experiment tackles the user’s perception of relevance of an information item, which is fundamental towards revealing the user’s information needs. The second experiment is then aimed at revealing the user’s affective responses towards a -relevant- text document. Results show that physiological user signals are associated with relevance and affect. In particular, electrodermal activity was found to be different when users read relevant content than when they read irrelevant content and was found to be lower when reading texts with negative emotional content than when reading texts with neutral content. Together, the experiments show that physiological text annotation can provide valuable implicit inputs for personalized systems. We discuss how our findings help design personalized systems that can annotate digital content using human physiology without the need for any explicit user interaction.  相似文献   

20.
随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号