首页 | 本学科首页   官方微博 | 高级检索  
     

基于随机森林的实体识别方法
引用本文:杨 萌,聂铁铮,申德荣,寇 月,于 戈.基于随机森林的实体识别方法[J].集成技术,2018,7(2):57-68.
作者姓名:杨 萌  聂铁铮  申德荣  寇 月  于 戈
作者单位:东北大学计算机科学与工程学院 沈阳 110819,东北大学计算机科学与工程学院 沈阳 110819,东北大学计算机科学与工程学院 沈阳 110819,东北大学计算机科学与工程学院 沈阳 110819,东北大学计算机科学与工程学院 沈阳 110819
基金项目:国家自然科学基金项目(61672142);中央高校基本科研业务费项目(N150408001-3、N150404013)
摘    要:实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。

关 键 词:实体识别  聚类  随机森林  记录相似度

An Entity Resolution Approach Based on Random Forest
Authors:YANG Meng  NIE Tiezheng  SHEN Derong  KOU Yue and YU Ge
Abstract:Entity Resolution assigns data objects corresponding to the same real world entity described in one or more data sources into the same group, which plays an important role in data cleaning, data integration, and data mining. However, the features of the entity may evolve over time irregularly, which makes the entity resolution significantly challenging. Traditional approaches can only tackle the issue that the feature of an entity changes regularly with time but can not deal with the case that the feature changes irregularly over time. An approach based on classification was proposed to solve this problem. Firstly, the random forest, a machine learning algorithm, was used to calculate the similarity of records. Consequently, new two-stage clustering algorithm was employed to perform the record clustering. Finally, the evaluation on real data sets shows that the approach can effectively improve the resolution accuracy of the evolutionary entity.
Keywords:entity resolution  clustering  random forest  record similarity
点击此处可从《集成技术》浏览原始摘要信息
点击此处可从《集成技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号