首页 | 本学科首页   官方微博 | 高级检索  
     

中文网页分布式并行索引的设计与实现
引用本文:张靖宇,梁久祯. 中文网页分布式并行索引的设计与实现[J]. 微计算机信息, 2010, 0(15)
作者姓名:张靖宇  梁久祯
作者单位:江南大学信息工程学院机器感知实验室;
摘    要:
Internet搜索引擎主要由搜索器、索引器和用户界面三部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。

关 键 词:分布式并行索引  倒排索引  正向最大匹配法  

The design and implementation of distributed andparallel index of Chinese website
ZHANG Jing-yu LIANG Jiu-zhen. The design and implementation of distributed andparallel index of Chinese website[J]. Control & Automation, 2010, 0(15)
Authors:ZHANG Jing-yu LIANG Jiu-zhen
Abstract:
Internet search engine consists of three parts:searcher,index database and user interface.This paper first analyzes the importance of the indexer in real-time and effectiveness of the search engine.Then a new index approach is presented which carries out Chinese word segmentations by multiple processing concurrently.The maximum matching method is used to create index data of Chinese web pages and the inverted index table is carried to store index data.This method accelerates the speed of the indexing and up...
Keywords:distributed and parallel Index  inverted index  the maximum matching method  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号