首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于段落同现频率的加权方法
引用本文:楼华锋,刘功申.一种基于段落同现频率的加权方法[J].信息安全与通信保密,2009(12):57-59.
作者姓名:楼华锋  刘功申
作者单位:上海交通大学信息安全工程学院,上海,200240
基金项目:上海科委科技攻关基金资助项目 
摘    要:聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。

关 键 词:特征向量模型  段落同现频率  特征向量加权

A Feature Value Weighted Method Based on Paragraph Co-occurrence Frequency
LOU Hua-feng,LIU Gong-shen.A Feature Value Weighted Method Based on Paragraph Co-occurrence Frequency[J].China Information Security,2009(12):57-59.
Authors:LOU Hua-feng  LIU Gong-shen
Affiliation:(School of Information Security Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
Abstract:The research on clustering algorithms has already become a focus. So how to apply these classical clustering algorithms to text clustering is a very important issue. This paper presents a feature value weighted method based on semantic analysis by using Paragraph Co-occurrence Frequency(PCF). Experiment indicates that the semantic analysisbased feature value weighted method could improve the text clustering result by 10% and the PCF threshold has a great influence on the text clustering result.
Keywords:vector space model(VSM)  paragraph co-occurrence frequency(PCF)  feature value weighted
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号