首页 | 本学科首页   官方微博 | 高级检索  
     

结构化信息的去重方法
引用本文:李林,刘桂峰,赵朋朋,崔志明. 结构化信息的去重方法[J]. 计算机工程, 2009, 35(3): 23-25,2
作者姓名:李林  刘桂峰  赵朋朋  崔志明
作者单位:苏州大学智能信息处理及应用研究所,苏州,215006;苏州大学智能信息处理及应用研究所,苏州,215006;苏州大学智能信息处理及应用研究所,苏州,215006;苏州大学智能信息处理及应用研究所,苏州,215006
基金项目:国家自然科学基金,教育部科研基金重点项目,江苏省"六大人才高峰"项目,江苏省软件和集成电路业专项基金,江苏省研究生创新计划项目 
摘    要:针对载有结构化信息的网页,提出一种基于学习的去重方法。通过先期准备的样本定义分类器,根据分类器对页面中结构化信息的不同属性字段进行分类和距离计算,计算出整个信息对象和已分类样本信息的距离,以这些距离与阈值的大小关系判断该信息对象是否重复。

关 键 词:相似性测度  去重  聚类
修稿时间: 

Duplication Deletion Method for Structural Information
LI Lin,LIU Gui-feng,ZHAO Peng-peng,CUI Zhi-ming. Duplication Deletion Method for Structural Information[J]. Computer Engineering, 2009, 35(3): 23-25,2
Authors:LI Lin  LIU Gui-feng  ZHAO Peng-peng  CUI Zhi-ming
Affiliation:Institute of Intelligent Information Processing and Application;Soochow University;Suzhou 215006
Abstract:This paper proposes a learning-based duplication deletion method for structural information on Web. It prepares a training set for producing classifier,classifies different attribute fields of structured information in pages,and computes the distances according to the classifier. The distance between the whole information object and classified sample information is computed,and whether the record is duplicate by comparing with threshold is judged.
Keywords:similarity measure  duplication deletion  clustering  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号