首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
由于互联网语料的高噪音特性,传统的属性值抽取方法存在人工成本增加及训练集缺乏等问题。提出一种新的实体属性值抽取方法。利用机器阅读理解模型,从互联网语料中抽取出高质量的候选属性值,通过高效的众包验证机制调整各候选属性值的权重,得到最终抽取结果。实验结果表明,与OpenTag、QANET等模型相比,该机器阅读理解模型有效提升了候选属性值抽取的准确性,抽取准确率提升10%左右,同时通过众包验证方法,能够以较低的众包成本提高属性值抽取的整体性能。  相似文献   

2.
实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中token误放的情形,也不能有效利用跨属性中tokens的语义和结构信息,影响实体识别准确性.本文提出了一种采用主题异构图嵌入的token粒度的实体解析方法(THGE-ER).在token、属性和记录基础上,利用LDA模型为实体记录添加一个主题层级,并构建了一个由token、属性、记录和主题4类节点组成的主题异构图;采用区分节点类型的异构图嵌入表示方法,并将节点间的语义和结构信息嵌入到token层级的嵌入向量中;进一步结合多层次注意力机制,完成最终的实体解析决策.经过大量的实验证明,本文提出的方法表现出了良好的性能.  相似文献   

3.
实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)实时的数据应用需求.因此,研究时间约束的实体解析,其核心问题是基于匹配可能性的记录对排序.通过对多路分块得到的块内信息与块间信息分别进行分析,提出两个基本的记录匹配可能性计算方法.在此基础上,提出一种基于二分图上相似性传播的记录匹配可能性计算方法.将记录对、块及其关联关系构建二分图;相似性沿着二分图不断地在记录对结点与块结点之间传播,直到收敛.收敛结果可以通过不动点计算得到.提出近似的收敛计算方法来降低计算代价,从而保证实体解析的实时召回率.最后,在两个数据集上进行实验评价,验证了所提出方法的有效性,并测试方法的各个方面.  相似文献   

4.
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题.  相似文献   

5.
刘安战  郭基凤 《计算机应用研究》2020,37(8):2422-2427,2432
为了更好地评价众包软件开发者的能力,分析了众包模式下软件众包开发的三个基本要素,即大众开发者、任务发布者、众包平台,提出了一种软件众包开发者能力价值率模型。该模型将软件众包任务从子任务、时间阶段、质量特性三个维度进行细分,首先评价众包原子单元,进而综合评估整个众包软件的质量。模型在评价过程中充分考虑了开发者的价值贡献因素,推演了开发者能力价值率的计算方法。验证实验表明软件众包开发者的综合能力价值率随着任务量的增加,其变化和能力大小关系趋于一致,所设计模型具有更好的稳定性,能够有效地评估软件众包开发者能力。  相似文献   

6.
严俊  库少平  喻楚 《计算机应用》2017,37(7):2039-2043
针对现有众包系统不能有效地控制众包交互过程中工作者的活跃积极性和任务完成质量的问题,提出了一种基于活跃度的工作者信誉模型来实现众包平台的质量控制。该模型改进了平均信誉模型,从工作者活跃度和历史信誉值的角度提出了活跃因子和历史因子的概念。首先根据众包工作者最近30 d内参与众包活动的天数计算工作者的活跃因子;然后根据历史因子计算众包工作者的历史信誉值;最后根据计算出来的活跃因子和历史信誉值计算基于活跃度的工作者信誉值,以衡量众包工作者的工作能力。理论分析和测试实验结果表明:与平均信誉模型相比,根据基于活跃度的工作者信誉模型选取的众包工作者在任务完成质量上提高了4.95%,在任务完成时间上减少了25.33%;与基于证据理论信任模型相比,在任务完成质量上提高了6.63%,在任务完成时间上减少了25.11%。实验结果表明,基于活跃度的工作者信誉模型在实际众包项目中能够有效提高众包任务的完成质量,减少众包任务的完成时间。  相似文献   

7.
中文微博命名实体的有效识别对使用微博进行社会舆论监测具有重要意义。鉴于微博更新速度快、语言不规范、噪声多,使得命名实体识别成本高、识别效率低。针对这些问题,提出基于众包标注的中文微博命名实体识别的方法。对众包工作者的能力进行评估,使用最大期望算法(EM算法)对评估后的能力值进行分析学习,过滤掉每个标注者的噪声并对众包标注的结果进行优化,从而确定最后的命名实体。实验结果表明,该方法能够有效地提高中文微博中命名实体识别的准确率。  相似文献   

8.
针对众包任务分配中工作者个性特征和任务需求描述难以有效匹配的问题,提出通过建立工作者的分层属性特征模型,完成任务分配的方法。以众包协同翻译为例,根据具体任务需求特征分解工作者属性需求,设计出分层属性指标用于精确描述众包工作者能力,计算出多层次指标组合权重向量个性特征模型,据此完成工作者筛选和任务分配。经实验验证,该方法提高了众包工作者和任务特征的匹配度,提高了任务完成效率和结果质量。  相似文献   

9.
该文针对Cail2020法律多跳机器阅读理解数据集进行研究,提出了TransformerG,一个基于不同层级的实体图结构与文本信息的注意力机制融合的多跳阅读理解模型。该模型有效地结合了段落中问题节点、问题的实体节点、句子节点、句中的实体节点的特征与文本信息的特征,从而预测答案片段。此外,该文提出了一种句子级滑动窗口的方法,有效解决在预训练模型中文本过长导致的截断问题。利用TransformerG模型参加中国中文信息学会计算语言学专委会(CIPS-CL)和最高人民法院信息中心举办的“中国法研杯”司法人工智能挑战赛机器阅读理解赛道,取得了第2名的成绩。  相似文献   

10.
针对有监督排序学习所需带标记训练数据集不易获得的情况,引入众包这种新型大众网络聚集模式来完成标注工作,为解决排序学习所需大量训练数据集标注工作耗时耗力的难题提供了新的思路。首先介绍了众包标注方法,着重提出两种个人分类器模型来解决众包结果质量控制问题,同时考虑标注者能力和众包任务的难度这两个影响众包质量的因素。再基于得到的训练集使用RankingSVM进行排序学习并在微软OHSUMED数据集上衡量了该方法在NDCG@n评价准则下的性能。实验结果表明该众包标注方法能够达到95%以上的正确率,所得排序模型的性能基本和RankingSVM算法持平,从而验证了众包应用于排序学习的可行性和优越性。  相似文献   

11.
Gu  Qi  Cao  Jian  Liu  Yancen 《Multimedia Tools and Applications》2020,79(1-2):219-242

An increasing amount of media metadata are published by different organizations on the Web which leads to a fragmented dataset landscape. Identifying media metadata from disparate datasets and integrating heterogeneous datasets have many applications but also pose significant challenges. To tackle this problem, entity resolution methods are commonly used as an essential prerequisite for integrating media information from different sources and effectively foster the re-use of existing data sources. While the amount of media metadata published on the Web grows steadily, how to scale it well to large media knowledge bases while maintaining a high matching quality is a critical challenge. This article investigates the relationships between media entities. To that end, the media database is formulated as a knowledge graph with entities as nodes and the associations between related entities as edges. Thus, media entities are grouped into communities by how they share neighbors. Then, a structural clustering-based model is proposed to detect communities and discover anchor vertices as well as isolated vertices. Specifically, an initial seed set of matched anchor vertex pairs is obtained. Furthermore, an iterative propagation approach for identifying the matched entities in the whole graph is developed, where community similarity is introduced into the measure function to control the total measurement of candidate pairs. Therefore, starting with the elements of the initial seed set, the entity resolution algorithm updates the matching information over the whole network along with the neighbor relationships iteratively. Extensive experiments are conducted on real datasets to evaluate how the seed set impacts the matching process and performance. The experiment results show this model can achieve an excellent balance between accuracy and efficiency and is a clear improvement compared to state-of-the-art methods.

  相似文献   

12.
实体识别常利用分类器根据记录对的字段相似度向量将记录对分为匹配、不匹配和可能匹配,因此分类器的准确性与实体识别的准确性直接相关。为提高分类准确性,本文基于重采样和集成选择技术构建一个多分类器系统。充分利用实体识别的特点,在分类之前发现分类困难的样本,并使重采样比率在一个区间内变化,生成一组重采样样本;然后用重采样后的样本训练分类器构建一个并行多分类器系统,强调分类器之间的差异度和稀疏度,从该多分类器系统中选择最优分类器子集,即最优的重采样比率组合,分别用非线性规划和极值方法求解该集成选择模型。实验结果表明,本方法与现有的多分类器系统相比具有更高的准确性。  相似文献   

13.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。  相似文献   

14.
为提高异构数据实体分辨的准确性,提出了异构数据实体分辨的蚁群算法参考点选择方法。异构数据的相似性通常难以直接度量,可以将其映射到参照物构造的统一空间后,再进行相似度的度量。给定两个异构数据集,选取若干匹配的数据对象对作为参照物(称之为参考点),将两个数据集中对象转换为到各自参考点的距离向量,依据距离向量的相似性进行实体分辨。为选择出更优的参考点集,建立了以最大化查全率、最大化查准率和最小化参考点集合规模为目标的优化模型,通过约束参考点集合规模,将上述模型转换成两目标优化模型,进而设计求解模型的蚁群算法,实现了参考点集的优化选择。实验结果表明,上述方法能够有效提高异构数据实体分辨的准确性。  相似文献   

15.
在云计算平台下需要读取大量数据进行分析,数据中大量指代同一实体的重复数据给数据的分析和处理带来了困难。基于数据记录间的相似度进行聚类分析是目前实体识别的主要方法之一,但其耗时较长,而且不适用于云计算环境。给出了一种能够很好地利用云计算特点的基于字符串波形的实体识别方法。该方法首先统计字符频率,按照字符频率的大小生成字符串的波形,再利用基于波形的过滤性质加快相似度的计算,进行基于相似度的聚类。理论分析和通过真实数据得出的实验结果都表明了这种方法的正确性和有效性。  相似文献   

16.
设计了一种基于STM32F103RET6和iNEMOMEMS模块的高精度计步器。采用ST公司基于ARMCortex—M3内核的STM32单片机作为核心处理器,iNEMOMEMS模块采集行人行走时腰部的加速度信息,结合人行走时的步态特征,对加速度信息的实时处理实现高精度计步功能。实验结果表明,本计步器能够将步态信息及计步数据可靠地传输至远端PC机,具有体积小、可靠性高、计步准确等优点。  相似文献   

17.
汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。  相似文献   

18.
For product design and development, crowdsourcing shows huge potential for fostering creativity and has been regarded as one important approach to acquiring innovative concepts. Nevertheless, prior to the approach could be effectively implemented, the following challenges concerning crowdsourcing should be properly addressed: (1) burdensome concept review process to deal with a large amount of crowd-sourced design concepts; (2) insufficient consideration in integrating design knowledge and principles into existing data processing methods/algorithms for crowdsourcing; and (3) lack of a quantitative decision support process to identify better concepts. To tackle these problems, a product concept evaluation and selection approach, which comprises three modules, is proposed. These modules are respectively: (1) a data mining module to extract meaningful information from online crowd-sourced concepts; (2) a concept re-construction module to organize word tokens into a unified frame using domain ontology and extended design knowledge; and (3) a decision support module to select better concepts in a simplified manner. A pilot study on future PC (personal computer) design was conducted to demonstrate the proposed approach. The results show that the proposed approach is promising and may help to improve the concept review and evaluation efficiency; facilitate data processing using design knowledge; and enhance the reliability of concept selection decisions.  相似文献   

19.
Entity resolution is the process of discovering groups of tuples that correspond to the same real-world entity. Blocking algorithms separate tuples into blocks that are likely to contain matching pairs. Tuning is a major challenge in the blocking process and in particular, high expertise is needed in contemporary blocking algorithms to construct a blocking key, based on which tuples are assigned to blocks. In this work, we introduce a blocking approach that avoids selecting a blocking key altogether, relieving the user from this difficult task. The approach is based on maximal frequent itemsets selection, allowing early evaluation of block quality based on the overall commonality of its members. A unique feature of the proposed algorithm is the use of prior knowledge of the estimated size of duplicate sets in enhancing the blocking accuracy. We report on a thorough empirical analysis, using common benchmarks of both real-world and synthetic datasets to exhibit the effectiveness and efficiency of our approach.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号