共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
为解决异构的业务数据互联互通问题,通过分析业务领域的数据集成要求,研究了基于实体资源的数据集成方法.定义了实体资源的概念,从业务处理角度和数据动态特性上区分了实体资源的不同类别,提出了实体资源定义协议、访问协议、传输协议,并采用XML和二进制格式进行了协议设计,研究了实体资源的存储方法.通过设计和实现数据集成系统,验证了基于实体资源的数据集成是一种有效的集成异构系统数据的方法. 相似文献
3.
4.
空间决策支持系统的数据集成方法 总被引:4,自引:0,他引:4
地理信息系统(GIS)与决策支持系统(DSS)各自发展多年,有了很多成型的实例。空间决策支持系统(SDSS)是在这两个系统的基础上发展起来的一种新的模式,将地理信息与决策信息相结合,提出了架构在空间信息上的决策支持系统,使决策更具体、更形象、更生动。文章从开发空间决策支持系统的实际经验出发,以数据集成为切入点,系统地阐述了GIS与DSS在SDSS中的集成方法。 相似文献
5.
为了能快速、准确地将分散在Web网页中的音乐实体抽取出来,在全方位了解音乐领域中命名实体的特征的基础上,提出了一种规则与统计相结合的中文音乐实体识别方法,并实现了音乐命名实体识别系统。通过测试发现,该系统具有较高的准确率和召回率。 相似文献
6.
7.
8.
9.
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 相似文献
10.
针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法.该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF算法实现命名实体的识别.最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.6... 相似文献
11.
命名实体间关系的抽取是信息抽取中的一个重要研究问题,该文提出了一种从大量的文本集合中自动抽取命名实体间关系的方法,找出了所有出现在同一句子内、词语之间的距离在一定范围之内的命名实体对,把它们的上下文转化成向量。手工选取少量具有抽取关系的命名实体对,把它们作为初始关系的种子集合,通过自学习,关系种子集合不断扩展。通过计算命名实体对和关系种子之间的上下文相似度来得到所要抽取的命名实体对。通过扩展关系种子集合的方法,抽取的召回率和准确率都得到了提高。该方法在对《人民日报》语料库的测试中,取得了加权平均值F-Score为0.813的效果。 相似文献
12.
基于BLSTM的命名实体识别方法 总被引:1,自引:0,他引:1
传统的命名实体识别方法直接依靠大量的人工特征和专门的领域知识,解决了监督学习语料不足的问题,但设计人工特征和获取领域知识的代价昂贵。针对该问题,提出一种基于BLSTM(Bidirectional Long Short-Term Memory)的神经网络结构的命名实体识别方法。该方法不再直接依赖于人工特征和领域知识,而是利用基于上下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构成命名实体的前缀、后缀和领域信息;同时,利用标注序列中标签之间的相关性对BLSTM的代价函数进行约束,并将领域知识嵌入模型的代价函数中,进一步增强模型的识别能力。实验表明,所提方法的识别效果优于传统方法。 相似文献
13.
跨语言命名实体对于机器翻译、跨语言信息抽取都具有重要意义,从命名实体的音译、基于平行/可比语料库的跨语言命名实体对齐、基于网络挖掘的跨语言命名实体对翻译抽取3个方面对跨语言命名实体翻译对抽取的研究现状进行了总结。音译是跨语言命名实体翻译对抽取的重点内容之一,基于深度学习的音译模型将是今后的研究重点。目前,跨语言平行/可比语料库的获取和标注直接影响基于语料库的跨语言命名实体对齐的深入研究。基于信息检索和维基百科的跨语言命名实体翻译对抽取研究将是跨语言命名实体翻译对抽取研究的趋势。 相似文献
14.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。 相似文献
15.
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力. 相似文献
16.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。 相似文献
17.
18.
19.
中文电子病历命名实体和实体关系语料库构建 总被引:1,自引:0,他引:1
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 相似文献
20.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。 相似文献