文本相似度计算的一种新方法 |
| |
引用本文: | 张焕炯,李玉鉴,钟义信.文本相似度计算的一种新方法[J].计算机科学,2002,29(7):92-93. |
| |
作者姓名: | 张焕炯 李玉鉴 钟义信 |
| |
作者单位: | 北京邮电大学信息工程学院,北京,100876 |
| |
基金项目: | 国家自然科学基金(项目编号69982001) |
| |
摘 要: | 1 引言目前信息检索技术已应用于许多领域,尤其广泛应用在Internet网络、图书馆等领域,为快速查阅文本信息提供极大便利。文本信息检索利用文本相似度描述文本与查询式之间的匹配程度。计算文本相似度的传统方法有向量空间模型,它把文本和查询式表示成以词为元素单位的向量,根据词频tf以及逆文本频率idf,赋予该向量各个分量的权值,与欧氏空间的向量1-1对应,用向量夹角的余弦值定量表示文本和查询式之间的相似度,即
|
关 键 词: | Internet 文本相似度计算 信息检索 向量空间模型 信息论 |
A New Method for Text Similarity Computing |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|
点击此处可从《计算机科学》下载全文 |
|