首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注,利用文本特征抽取机制提取类别特征项和文本特征项,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量,在此基础上利用潜在语义分析,将双语文本在语义层面上统一起来,通过类别与文本的语义相似度进行分类。从而获取较高的精度。  相似文献   

2.
基于概念空间的文本语义索引   总被引:6,自引:0,他引:6  
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在。信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题。本文研究的内容是建立一个基于概念空间的文本语义索引。目前的文本索引都是建立在文本空间,或关键词空间上的,而建立在概念空间上的索引具有条理清晰、人机界面友好、符合通常检索习惯等许多优势,这也是文本语义索引发展的方向。另外.在建立文本索引的过程中,国内外大多使用Hopfield神经网络联想的方法,本文首次使用直接聚类法代替了Hopfield神经网络联想功能,这样使得索引具有很好的可扩展性。基于语义关联度的文本索引可以广泛应用于Internet搜索引擎、数字图书馆、电子商务等众多领域中。建立文本索引的过程主要有以下几部分: 1)对文档分类,建立文档的概念空间,在概念空间的层次上组织文档并确定文档中出现的关键词。  相似文献   

3.
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题.为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用潜在语义索引方法获得原始特征向量的潜在语义结构.实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维.  相似文献   

4.
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。  相似文献   

5.
张磊  冯晓森  项学智 《计算机工程》2009,35(13):26-27,5
提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词.文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。  相似文献   

6.
潜在语义索引(LSI)是近年发展起来的一种新的信息检索方法,本文以潜在语义索引技术为基础,从图书馆的个性化服务理念入手,介绍了图书馆个性化服务的现状,提出了图书馆个性化服务模型,详细讨论了应用潜在语义索引技术来建立用户个性化模型的系统结构和过程。实验中,我们选用KNN分类算法作为个性化信息的识别方法。通过分析比较表明,LSI是一种更有效的个性化特征选择方法;基于LSI的个性化文本和信息识别具有更高的精度。  相似文献   

7.
基于概念的文本表示模型   总被引:5,自引:1,他引:4  
文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。  相似文献   

8.
潜在语义索引中特征优化技术的研究   总被引:3,自引:0,他引:3  
潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete-Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%~15%时,其F1值分别提高了6.577 0%,1.992 8%和3.361 4%。  相似文献   

9.
张秋余  刘洋 《计算机应用》2007,27(6):1382-1384
潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。  相似文献   

10.
传统上,文本情感分析技术仅限于情感分类,即仅局限于简单的将评论分为正面或负面两类。而在实际中,有时更需要将评论进行分级,比如把商品划分为“好”、“中”、“差”、“极差”等若干个级别,以便更准确表达评论者的情感;现有的情感分类方法无法解决评论分级问题。为此,提出了基于潜在语义索引的评论文本情感序列回归方法,首先采用潜在语义索引对评论文本进行特征变换,并在此基础上采用核判别学习序列回归方法进行序列回归,实现对评论文本的情感分级。通过在Movie Reviews数据库的实验,验证了提出方法的有效性。  相似文献   

11.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

12.
文本分类是处理电子可读文本的重要手段,本文提出了基于标题的文本分类机制.其基本思想是:鉴于文本标题的重要性和简洁性,利用汉语语义分类树寻求概念上的扩充,利用语料库的关联矩阵,进行关联扩充,以丰富标题的语义内涵,从而获取较高精度的文本分类结果.该方法不依赖于汉语分析器和相应的领域知识库,速度较快。应用面较广.  相似文献   

13.
基于合作模式的文本过滤模型   总被引:4,自引:0,他引:4  
文本过滤为因特网上用户提供信息服务,旨在帮助用户选择和处理自己感兴趣的文本。本文提出了基于合作模式的文本过滤模型。其基本思想是根据用户评注将用户分成若干类别,综合类别内外用户评注影响,给出了文本推荐机制,将相关文本推荐给用户。此外,利用相关反馈进行类别和参数重新调整,可以有效地改善过滤的效率。该方法不仅适用于单纯文本介质,而且还可以应用到其他非文本介质。  相似文献   

14.
15.
文本分类是海量文本组织和管理的重要方法,文章提出了基于段落匹配的文本分类机制。其基本思想是:对于文本特征向量进行概念扩充,减少特征项之间的相关性,增强特征项的表现能力。选取文本段落作为分类的基本要素,通过段落匹配的约束,防止由发散特征引起的假相关现象,从而获取较高精度的文本分类结果。  相似文献   

16.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

17.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

18.
基于混合模式的文本过滤模型   总被引:16,自引:1,他引:15  
文本过滤旨在帮助用户处理自己感兴趣的文本,提出了基于混合模式的文本过滤模式,其基本思想是将基于内容的过滤方法和合作过滤方法结合起来,给出了用户评沪的权威性和一致性度是,以便更好地运用用户的评注信息,在此基础上,结合用户的个人兴趣,给出了文硒特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制,该方法不依赖于具体的领域知识库,大大降低“噪音”影响,并可以适用于多媒体类型文件的过滤和信息服务。  相似文献   

19.
基于BBS热点主题发现的文本聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对电子公告板(BBS)帖子浏览机制不完善和主题发现效率不高的问题,提出一种基于BBS热点主题发现的文本聚类方法。将含有关键词的文档向量相加,经权重处理后计算其两两距离,合并最小的2类,并逐次进行,使最终类的大小比较均匀,以分等级的菜单方式组织帖子便于逐层浏览。实验结果表明,该方法比常规方法更适用于BBS主题浏览。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号