首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于双词关联的文本特征选择模型
引用本文:高茂庭,王正欧.一种基于双词关联的文本特征选择模型[J].计算机工程与应用,2007,43(10):183-185.
作者姓名:高茂庭  王正欧
作者单位:1. 上海海事大学,计算机系,上海,200135
2. 天津大学,系统工程研究所,天津,300072
基金项目:国家自然科学基金 , 上海市教委资助项目 , 上海海事大学校科研和教改项目
摘    要:向量空间模型(VSM)是一种常用的文本特征表示方法,它是基于特征独立性假设建立起来的,将文本看成是由一个个独立的词所构成,这些词之间互不关联,这种方法丢失了文本中词间的一些重要的关联特征信息。基于双词关联的文本特征选择模型是在VSM的基础上,选择文本中相邻的单词之间的关联信息也作为文本特征,从而能更加充分地表达文本的特征信息。实验表明,这是一种更加有效的文本特征选择方法。

关 键 词:文本挖掘  特征选择  双词关联  聚类分析
文章编号:1002-8331(2007)10-0183-03
修稿时间:2006-11

New model for text feature selection based on twin words relationship
GAO Mao-ting,WANG Zheng-ou.New model for text feature selection based on twin words relationship[J].Computer Engineering and Applications,2007,43(10):183-185.
Authors:GAO Mao-ting  WANG Zheng-ou
Affiliation:1.Computer Science Department,Shanghai Maritime University,Shanghai 200135,China ;2.Institute of Systems Engineering,Tianjin University,Tianjin 300072,China
Abstract:Vector Space Model(VSM)is a kind of common way to express text feature in text mining,which is based on the hypothesis of independence between text features.It considers that text is made up of some unattached words which do not associate each other.Twin words relationship based text features model selects the feature relationships between conjoint words in text to express text features fully.Experiments demonstrated that this model is a more effective way to select text features.
Keywords:text mining  feature selection  twin words relationship  clustering analysis
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号