首页 | 本学科首页   官方微博 | 高级检索  
     

一种结合文本和链接分析的局部Web社区识别技术
引用本文:张宪超,徐雯,高亮,梁文新. 一种结合文本和链接分析的局部Web社区识别技术[J]. 计算机研究与发展, 2012, 49(11): 2352-2358
作者姓名:张宪超  徐雯  高亮  梁文新
作者单位:大连理工大学软件学院 辽宁大连 116620
基金项目:国家自然科学基金项目,教育部新世纪优秀人才支持计划项目,高等学校博士学科点专项科研基金(新教师类)项目,中央高校基本科研业务费专项资金项目
摘    要:当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max-flow+TF-IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.

关 键 词:Web社区识别  最大流算法  文本相似度  Web挖掘  信息检索

Combining Content and Link Analysis for Local Web Community Extraction
Zhang Xianchao , Xu Wen , Gao Liang , Liang Wenxin. Combining Content and Link Analysis for Local Web Community Extraction[J]. Journal of Computer Research and Development, 2012, 49(11): 2352-2358
Authors:Zhang Xianchao    Xu Wen    Gao Liang    Liang Wenxin
Affiliation:(School of Software,Dalian University of Technology,Dalian,Liaoning 116620)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号