首页 | 本学科首页   官方微博 | 高级检索  
     

基于图模型的中文文档分类研究
引用本文:邹加棋,陈国龙,郭文忠.基于图模型的中文文档分类研究[J].小型微型计算机系统,2006,27(4):754-757.
作者姓名:邹加棋  陈国龙  郭文忠
作者单位:福州大学,数学与计算机科学学院,福建,福州,350002
基金项目:福建省自然科学基金;福建省科技三项费资助项目;福建省教育厅科研项目;福州大学校科研和教改项目
摘    要:信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型一图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.

关 键 词:文本分类  图模型  相似性  向量空间模型
文章编号:1000-1220(2006)04-0754-04
收稿时间:12 16 2004 12:00AM
修稿时间:2004-12-16

Research on Chinese Document Classification Based on Graph Model
ZOU Jia-qi,CHEN Guo-long,GUO Wen-zhong.Research on Chinese Document Classification Based on Graph Model[J].Mini-micro Systems,2006,27(4):754-757.
Authors:ZOU Jia-qi  CHEN Guo-long  GUO Wen-zhong
Affiliation:Institute of Mathematics and Computer Science, Fuzhou University, Fuzhou 3,50002, China
Abstract:Based on the limitations of vector space model, this paper conclude that vector space model is incapable of expressing the structure of documents effectively. To solve this problem, this paper put forward a new document representation using graph model, which can express the structure of documents more effectively, using the feature words and position relation information of documents. And a new similarity measure criterion is defined in this paper. Also, this paper put forward a document classification algorithm based on this graph model and apply it to the Chinese documents classification. Empirical results show the new graph model is feasible.
Keywords:text classification  graph model  similarity measure  vector space model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号