首页 | 本学科首页   官方微博 | 高级检索  
     

基于小世界模型的中文文本主题分析
引用本文:石晶,胡明,戴国忠. 基于小世界模型的中文文本主题分析[J]. 中文信息学报, 2007, 21(3): 69-75
作者姓名:石晶  胡明  戴国忠
作者单位:1. 中国科学院 软件研究所 人机交互技术与智能信息处理实验室,北京 100080;
2. 中国科学院 研究生院 北京 100049; 3. 长春工业大学,吉林 长春 130021
基金项目:国家重点基础研究发展规划(973计划)重点基础研究发展规划资助项目;国家自然科学基金;中国科学院软件研究所创新工程重大项目
摘    要:本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的特性,说明小世界结构存在于文本中;然后依据小世界结构将词汇共现图划分为“簇”,通过计算“簇”在文本中所占的密度比重识别片段边界,使“簇”与片段对应起来;最后利用短路径,高聚集度的特性提取图“簇”的主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵。虽然国际上已有很多关于小世界结构及基于其上的应用研究,但利用小世界特性进行主题分析还是一个崭新的课题。实验表明,本文所给方法的结果明显好于其他方法,说明可以为下一步文本推理的工作提供有价值的预处理。

关 键 词:计算机应用  中文信息处理  主题分析  小世界模型  文本分割  词汇聚类  
文章编号:1003-0077(2007)03-0069-07
收稿时间:2006-11-23
修稿时间:2007-02-05

Topic Analysis of Chinese Text Based on Small World Model
SHI Jing,HU Ming,DAI Guo-zhong. Topic Analysis of Chinese Text Based on Small World Model[J]. Journal of Chinese Information Processing, 2007, 21(3): 69-75
Authors:SHI Jing  HU Ming  DAI Guo-zhong
Affiliation:1. Computer Human Interaction and Intelligent Information Processing Laboratory Institute of Software,
The Chinese Academy of Sciences ,Beijing 100080,China;
2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China;
3. Changchun University of Technology, Changchun, Jilin 130021, China
Abstract:The paper aims to perform topic spotting of segments based on text segmentation using small world structure.Main topic of the whole text is generalized and the skeleton of text shows itself.It is explained that the term co-occurrence graph of text is highly clustered and has short path length,which proves that texts have small world structure.Clusters in the small world structure are detected.The density of each cluster is computed to discover the boundary of a segment.Topic words are extracted from clusters of the graph.Words which are not distinctly in the analyzed text can be included to express the topics with the help of word clustering of background and topic words association.The signification behind the words are attempted to dig out.Although much research on applications of small world structure,it is a new task to analyze texts with the characteristics of small world.The experiments tell that the result of tests is far better than that of other methods.Valuable pre-processing is provided for next work of text reasoning.
Keywords:computer application  Chinese information processing  topic analysis  small world model(SWD)  text segmentation  words clustering
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号