首页 | 本学科首页   官方微博 | 高级检索  
     

基于压缩稀疏矩阵矢量相乘的文本相似度计算
引用本文:霍华,冯博琴. 基于压缩稀疏矩阵矢量相乘的文本相似度计算[J]. 小型微型计算机系统, 2005, 26(6): 988-990
作者姓名:霍华  冯博琴
作者单位:1. 西安交通大学,电子与信息工程学院,陕西,西安,710049;河南科技大学,电子信息工程学院,河南,洛阳,471003
2. 西安交通大学,电子与信息工程学院,陕西,西安,710049
基金项目:河南省教育厅自然科学基金(200410464004)资助.
摘    要:在信息检索矢量模型的基础上.提出了一种基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,具有矢量模型计算简单和速度快的特点.该方法采用压缩稀疏矩阵矢量空间存储数据,在相似度计算和数据存储时不需要考虑文本矢量矩阵中的零元素,大大减少了计算量和存储空间,从而使信息检索系统运行效率显著提高.仿真实验表明,上述方法比基于矢量模型的传统反向索引机制节省了38%的存储空间.

关 键 词:稀疏矩阵 相似度 信息检索 矢量模型
文章编号:1000-1220(2005)06-0988-03

Document Similarity Degree Measuring Based on Compressed Sparse Matrix Vector Multiplication Technique
Huo Hua,FENG Bo-Qin. Document Similarity Degree Measuring Based on Compressed Sparse Matrix Vector Multiplication Technique[J]. Mini-micro Systems, 2005, 26(6): 988-990
Authors:Huo Hua  FENG Bo-Qin
Abstract:A novel method to measure document similarity degree based on compressed sparse matrix vector multiplication technique was presented. The designe of the method is based on an information retrieval vector model, which has the virtues of beeing simple and high speed. A compressed sparse matrix vector space is used, in which the zero elements in the vector matrix of documents are not processed while calculating similarity degree and storing data, to reduce the requirements of calcualting time and storing space. This method can improve the efficiency of information retrieval system. Simulation experiment indicats that the method can save 38% of the storing space of the conventional inverted index technique based on vector model.
Keywords:sparse matrix  similarity degree  information retrieval  vector model  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号