首页 | 本学科首页   官方微博 | 高级检索  
     

基于摘要的web内容挖掘研究
引用本文:常浩,陈莉.基于摘要的web内容挖掘研究[J].微计算机信息,2006,22(24):302-304.
作者姓名:常浩  陈莉
作者单位:710069 西安 陕西 西北大学 信息科学与技术学院
基金项目:陕西省自然科学基金;陕西省教育厅资助项目
摘    要:Internet是一个巨大的,分步广泛的,动态性强的全球信息服务中心,人们想在它上面找到想要的相关信息是很困难的,一般用户通过给搜索引擎提供简短的关键词来检索信息,但是通过搜索引擎返回的相关结果太多,这使得处理相关结果太耗时,本文提出了一种语义虚拟文档(SVD)来表示web文档,在此基础上实现了凝聚层次聚类算法,以自动聚类内容相似的web文档。结果:一方面使网络用户增强了相关结果的判断处理,同时使用户快速、高效的从Internet上发现想要的信息,另一方面返回的结果在知识表示上增强了web内容挖掘。

关 键 词:语义虚拟文档  锚文本  摘要  文本聚类  单链接凝聚层次聚类算法
文章编号:1008-0570(2006)08-3-0302-03
修稿时间:2005年12月10

Using Summarization Techniques For Web Content Mining
Chang Hao,Chen Li.Using Summarization Techniques For Web Content Mining[J].Control & Automation,2006,22(24):302-304.
Authors:Chang Hao  Chen Li
Abstract:Internet is a global service center, which is very large, widespread, dynamic. It is very difficult for people to find relevant information on the Internet. Most users typically search their information by short to search engines, but search engines usu- ally return too many relevant results, which make the process of relevant results time- consuming. In this paper, we put forward a Semantic Virtual Document to represent web document. Based on this, we realize Hierarchical Agglomerative Clustering and achieve automatic content- based categorization of similar web document. As a result, on the one hand, document browsing enhance relevant judgement process for Internet users and find information- wanted swiftly and efficiently. On the other hand, returned results enhance web content mining on knowledge representation.
Keywords:SVD  Anchortext  Summarization  Document clustering  HAC Single- Linkage
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号