首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
采用地理编码和汉语切分词相结合的方法对空间命名实体进行在线识别。通过全文粗扫描获取相关的地理编码来锁定文中涉及的空间范围,然后按照一定的策略在确定的空间范围内进行单句识别,从而显著地减少了词典的加载量,较好地解决了因命名实体词典数量庞大而导致的低效率问题。实验表明,该方法能有效降低内存的消耗量和识别时间,提高识别精度,基本满足空间命名实体在线识别和位置信息服务的要求。  相似文献   

2.
为解决异构的业务数据互联互通问题,通过分析业务领域的数据集成要求,研究了基于实体资源的数据集成方法.定义了实体资源的概念,从业务处理角度和数据动态特性上区分了实体资源的不同类别,提出了实体资源定义协议、访问协议、传输协议,并采用XML和二进制格式进行了协议设计,研究了实体资源的存储方法.通过设计和实现数据集成系统,验证了基于实体资源的数据集成是一种有效的集成异构系统数据的方法.  相似文献   

3.
4.
空间决策支持系统的数据集成方法   总被引:4,自引:0,他引:4  
地理信息系统(GIS)与决策支持系统(DSS)各自发展多年,有了很多成型的实例。空间决策支持系统(SDSS)是在这两个系统的基础上发展起来的一种新的模式,将地理信息与决策信息相结合,提出了架构在空间信息上的决策支持系统,使决策更具体、更形象、更生动。文章从开发空间决策支持系统的实际经验出发,以数据集成为切入点,系统地阐述了GIS与DSS在SDSS中的集成方法。  相似文献   

5.
佘俊  张学清 《计算机应用》2010,30(11):2928-2931
为了能快速、准确地将分散在Web网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率。  相似文献   

6.
近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂.为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法.首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假设,通过将经验分布加入模...  相似文献   

7.
提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法.该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别.识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息.实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能...  相似文献   

8.
杨丹  陈默  申德荣 《计算机科学》2017,44(2):112-116
异构信息空间中的实体和关联关系普遍具有时间信息、多种时间版本的实体数据共存,而传统的实体集成忽略了时间信息,不支持时间维度上的集成。提出一种异构信息空间中时间感知的实体集成框架T-EI,从大量异构实体数据中聚集事实形成干净的、完整的、具有时间信息的实体概貌,进而支持时间感知的实体搜索。T-EI利用实体及关联关系所具有的时间信息提出时间感知的实体识别算法,并通过考虑数据时效性提出时间感知的数据融合算法。在真实数据集上的实验结果表明了T-EI的可行性和有效性。  相似文献   

9.
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。  相似文献   

10.
针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法.该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF算法实现命名实体的识别.最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.6...  相似文献   

11.
基于种子自扩展的命名实体关系抽取方法   总被引:6,自引:0,他引:6       下载免费PDF全文
何婷婷  徐超  李晶  赵君喆 《计算机工程》2006,32(21):183-184,193
命名实体间关系的抽取是信息抽取中的一个重要研究问题,该文提出了一种从大量的文本集合中自动抽取命名实体间关系的方法,找出了所有出现在同一句子内、词语之间的距离在一定范围之内的命名实体对,把它们的上下文转化成向量。手工选取少量具有抽取关系的命名实体对,把它们作为初始关系的种子集合,通过自学习,关系种子集合不断扩展。通过计算命名实体对和关系种子之间的上下文相似度来得到所要抽取的命名实体对。通过扩展关系种子集合的方法,抽取的召回率和准确率都得到了提高。该方法在对《人民日报》语料库的测试中,取得了加权平均值F-Score为0.813的效果。  相似文献   

12.
基于BLSTM的命名实体识别方法   总被引:1,自引:0,他引:1  
传统的命名实体识别方法直接依靠大量的人工特征和专门的领域知识,解决了监督学习语料不足的问题,但设计人工特征和获取领域知识的代价昂贵。针对该问题,提出一种基于BLSTM(Bidirectional Long Short-Term Memory)的神经网络结构的命名实体识别方法。该方法不再直接依赖于人工特征和领域知识,而是利用基于上下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构成命名实体的前缀、后缀和领域信息;同时,利用标注序列中标签之间的相关性对BLSTM的代价函数进行约束,并将领域知识嵌入模型的代价函数中,进一步增强模型的识别能力。实验表明,所提方法的识别效果优于传统方法。  相似文献   

13.
王志娟  李福现 《计算机科学》2017,44(Z6):14-18, 28
跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。  相似文献   

14.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。  相似文献   

15.
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力.  相似文献   

16.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

17.
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。  相似文献   

18.
中文微博命名实体识别   总被引:3,自引:2,他引:3  
微博这一媒体形式的迅速发展为命名实体识别提供了一个新的载体.根据微博文本的特点,提出针对中文微博的命名实体识别方法.首先,对微博文本做规范化处理,消除由于微博表达不规范造成的干扰;在建立中文人名库、常用地点库等知识库的基础上,选取适合微博的特征模板,使用条件随机场方法进行实体识别;同时,将正确的识别结果添加到知识库中以提升识别效果.在真实微博数据上的实验表明,该方法能够有效地完成中文微博的命名实体识别任务.  相似文献   

19.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

20.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号