首页 | 本学科首页   官方微博 | 高级检索  
     

基于压缩倒排文件的中文全文检索仿真系统
引用本文:宋懿,国德峰. 基于压缩倒排文件的中文全文检索仿真系统[J]. 计算机工程, 2008, 34(9): 64-66
作者姓名:宋懿  国德峰
作者单位:上海交通大学计算机科学与工程系,上海,200240;上海交通大学计算机科学与工程系,上海,200240
摘    要:探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。

关 键 词:中文全文检索  压缩倒排文件  排名
文章编号:1000-3428(2008)09-0064-03
修稿时间:2007-09-20

Chinese Full-text Retrieval Simulation System Based on Compressed Inverted File
SONG Yi,GUO De-feng. Chinese Full-text Retrieval Simulation System Based on Compressed Inverted File[J]. Computer Engineering, 2008, 34(9): 64-66
Authors:SONG Yi  GUO De-feng
Affiliation:(Department of Computer Science & Engineering, Shanghai Jiaotong University, Shanghai 200240)
Abstract:This paper analyzes Chinese full-text retrieval technologies based on compressed inverted file, including data compression, file storage, searching and ranking mechanisms. A Chinese text retrieval simulation system is implemented in C++/STL with ICTCLAS, which is a high precision Chinese segmentation tool from CAS. Some key codes are also included, and an experiment is carried using data provided by the Sogou Lab. The system disk utilization goes up nearly 80% through using improved compression algorithm.
Keywords:Chinese full-text retrieval  compressed inverted file  ranking
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号