首页 | 本学科首页   官方微博 | 高级检索  
     

网页查重技术在企业数据仓库中的应用
引用本文:白广慧,连浩,刘悦,程学旗. 网页查重技术在企业数据仓库中的应用[J]. 计算机应用, 2005, 25(7): 1713-1715
作者姓名:白广慧  连浩  刘悦  程学旗
作者单位:1. 中国网通集团,研究院,北京,100036;中国科学院,研究生院,北京,100039
2. 中国科学院,研究生院,北京,100039
3. 中国科学院,计算技术研究所,北京100080
摘    要:介绍了处理网页排重的三类通用方法,并介绍了在企业数据仓库系统中,通过利用相似性检索技术实现情报资料自动排重的应用。通过对测试结果的评估表明,这种基于相似性检索技术的自动排重的方法能够达到较好的效果,实现了企业情报资料智能化预处理的应用。

关 键 词:数据仓库 网页查重 支持向量机 向量空间模型
文章编号:1001-9081(2005)07-1713-03

Automatic detection of online duplication documents and its application in enterprise data warehouse
BAI Guang-hui,LIAN Hao,LIU Yue,CHENG Xue-Qi. Automatic detection of online duplication documents and its application in enterprise data warehouse[J]. Journal of Computer Applications, 2005, 25(7): 1713-1715
Authors:BAI Guang-hui  LIAN Hao  LIU Yue  CHENG Xue-Qi
Affiliation:BAI Guang-hui~ 1,2,LIAN Hao~2,LIU Yue~3,CHENG Xue-qi~3
Abstract:Three general methods to detect duplicate Web pages were introduced. The similarity search technique was used to detect duplicate information automatically in enterprise data warehouse. The results indicate that the similarity search method is fit for intelligent pretreatment of enterprise intelligence data.
Keywords:data warehouse  online duplicate documents detection  Support Vector Machine (SVM)  Vector Space Model(VSM)
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号