共查询到20条相似文献,搜索用时 56 毫秒
1.
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法.以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类.实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高. 相似文献
2.
3.
4.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。 相似文献
5.
6.
中文词语语义相似度计算——基于《知网》2000 总被引:8,自引:2,他引:8
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 相似文献
7.
词语相似度计算中常用的一种方法是基于某种语义词典的计算。首先介绍《知网》中的基本概念和层次体系结构,借鉴刘群、李素建在词语相似度方面的基础理论,利用《知网》的义原层次体系结构计算出其中的义原相似度,再计算出概念的相似度,最后得到词语的相似度。还对其中的计算方法做出适当的改进调整,使其计算出的结果更加符合实际情况。 相似文献
8.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。 相似文献
9.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大... 相似文献
10.
国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取.针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近. 相似文献
11.
Keechul Jung Author Vitae Kwang In Kim Author Vitae Author Vitae 《Pattern recognition》2004,37(5):977-997
Text data present in images and video contain useful information for automatic annotation, indexing, and structuring of images. Extraction of this information involves detection, localization, tracking, extraction, enhancement, and recognition of the text from a given image. However, variations of text due to differences in size, style, orientation, and alignment, as well as low image contrast and complex background make the problem of automatic text extraction extremely challenging. While comprehensive surveys of related problems such as face detection, document analysis, and image & video indexing can be found, the problem of text information extraction is not well surveyed. A large number of techniques have been proposed to address this problem, and the purpose of this paper is to classify and review these algorithms, discuss benchmark data and performance evaluation, and to point out promising directions for future research. 相似文献
12.
基于概念的中文文本可视化表示机制 总被引:1,自引:0,他引:1
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。 相似文献
13.
14.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。 相似文献
15.
对等计算P2P因其潜在的技术优势和广阔的应用前景,近年来引起工业界和学术界的广泛关注.在重点研究P2P环境下文本共享与检索技术的基础上,实现了一个基于P2P的文本共享和检索系统.该系统通过灵活的节点加入策略、高效的索引机制、有效的路由策略,提供了基于元数据和内容等多种检索功能和友好的人机界面.应用部署证明系统具有很高的检索效率和跨平台数据的交换能力. 相似文献
16.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。 相似文献
17.
本文描述了基于数据库的RTF文本元素组合成文字集合的应用,通过建立索引表使文字集合中的RTF元素与数据库之间建立映射关系并实现库内替换的方法。着重讨论了索引表在不同情况下的管理维护方法。 相似文献
18.
19.
可视化中文文本挖掘模型 总被引:13,自引:0,他引:13
面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。在这样的需求驱动下,文本挖掘得到了长足的发展,并取得了相当的成功。由于目前在因特网上大多数的信息表现形式为文本形式,只有通过文本挖掘才能充分地利用信息资源。 相似文献