用于形式背景提取的中文文本表示 Chinese Document Representation for Extracting Formal Context期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

用于形式背景提取的中文文本表示

引用本文：	侯亚南,黄映辉. 用于形式背景提取的中文文本表示[J]. 计算机技术与发展, 2010, 20(9): 36-39,43

作者姓名：	侯亚南黄映辉

作者单位：	大连海事大学,信息科学技术学院,辽宁,大连,116026

基金项目：	国家自然科学基金资助项目

摘要：	形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型（VSM）,其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本的语义信息。讨论了一种改进方法,其特征是：选择知网（Hownet）作为知识库,采用相似词集集合代替单一特征词,建立中文文本的概念向量空间。对于用概念向量空间表示的中文文本,可以方便地根据用户的具体要求提取所需的形式背景。以214篇交通类中文文本为实例阐释了该改进方法的实际应用。
关键词：	形式背景文本表示相似词集集合向量空间模型
Chinese Document Representation for Extracting Formal Context

HOU Ya-nan,HUANG Ying-hui. Chinese Document Representation for Extracting Formal Context[J]. Computer Technology and Development, 2010, 20(9): 36-39,43

Authors:	HOU Ya-nan HUANG Ying-hui

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏