首页 | 本学科首页   官方微博 | 高级检索  
     

用于形式背景提取的中文文本表示
引用本文:侯亚南,黄映辉. 用于形式背景提取的中文文本表示[J]. 计算机技术与发展, 2010, 20(9): 36-39,43
作者姓名:侯亚南  黄映辉
作者单位:大连海事大学,信息科学技术学院,辽宁,大连,116026
基金项目:国家自然科学基金资助项目 
摘    要:形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型(VSM),其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本的语义信息。讨论了一种改进方法,其特征是:选择知网(Hownet)作为知识库,采用相似词集集合代替单一特征词,建立中文文本的概念向量空间。对于用概念向量空间表示的中文文本,可以方便地根据用户的具体要求提取所需的形式背景。以214篇交通类中文文本为实例阐释了该改进方法的实际应用。

关 键 词:形式背景  文本表示  相似词集集合  向量空间模型

Chinese Document Representation for Extracting Formal Context
HOU Ya-nan,HUANG Ying-hui. Chinese Document Representation for Extracting Formal Context[J]. Computer Technology and Development, 2010, 20(9): 36-39,43
Authors:HOU Ya-nan  HUANG Ying-hui
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号