首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于文档拓扑的相似性搜索算法
引用本文:杨艳,朱戈,范文彬.一种基于文档拓扑的相似性搜索算法[J].计算机工程与应用,2011,47(26):146-150.
作者姓名:杨艳  朱戈  范文彬
作者单位:1. 黑龙江大学计算机科学技术学院,哈尔滨150080;黑龙江大学计算生物学重点实验室,哈尔滨150080
2. 黑龙江大学计算机科学技术学院,哈尔滨,150080
基金项目:国家自然科学基金No.60973081; 黑龙江省教育厅科学技术研究面上项目(No.11541263,No.11551352)~~
摘    要:从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题。现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档。提出了一种基于文档拓扑的相似性搜索算法——Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率。通过实验验证了算法的有效性和可行性。

关 键 词:文档拓扑  相似性搜索  相似度
修稿时间: 

Topology-based document similarity search algorithm
YANG Yan,ZHU Ge,FAN Wenbin.Topology-based document similarity search algorithm[J].Computer Engineering and Applications,2011,47(26):146-150.
Authors:YANG Yan  ZHU Ge  FAN Wenbin
Affiliation:YANG Yan1,2,ZHU Ge1,FAN Wenbin11.School of Computer Science and Technology,Heilongjiang University,Harbin 150080,China 2.The Key Laboratory of Computational Biology,China
Abstract:Searching for similar documents from the large number of documents quickly and efficiently is an important and time-consuming problem.The existing algorithms first find the candidate document set,and then sort them based on a document related evaluation to identify the most relevant ones.A topology-based document similarity search algorithm——Hub-N is put forward,and the document similarity search problem is transformed into graph search problem,applying the pruning techniques,reducing the scope of scanned documents,and significantly improving retrieval efficiency.It proves to be effective and feasible through experiment.
Keywords:document topology  similarity search  similarity
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号