首页 | 本学科首页   官方微博 | 高级检索  
     

基于发布时间的新闻网页去重方法研究
引用本文:罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121.
作者姓名:罗永莲  张永奎
作者单位:[1]晋中学院计算机科学与技术学院,山西晋中030600 [2]山西大学计算机与信息技术学院,太原030006
基金项目:国家自然科学基金 , 山西省自然科学基金 , 山西省留学回国人员科研启动基金
摘    要:网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。

关 键 词:新闻网页  主题内容抽取  网页去重  权值计算
文章编号:1002-8331(2007)05-0019-03
修稿时间:2006-10

Research on duplicated news webpages deletion method based on issue time
LUO Yong-lian,ZHANG Yong-kui.Research on duplicated news webpages deletion method based on issue time[J].Computer Engineering and Applications,2007,43(6):119-121.
Authors:LUO Yong-lian  ZHANG Yong-kui
Abstract:In the homepage retrieval result,users often get the redundant page with same content.It not only wa set the storing resources,but also bring a great deal of inconvenience to information retrieval or other text-processing.We first extract the news title,the subject content and the issue date in this article,then divide group according to data issued on the basis of news fragility and conduct the exploration research to duplicated web pages removal.It greatly reduces the computing time,enhances the duplicated news webpages deletion accuracy.
Keywords:news webpages  theme's extraction  duplicated web pages removal  weight calculating
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号