首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

2.
TCBLSA:一种中文文本聚类新方法   总被引:7,自引:3,他引:7  
王国勇  徐建锁 《计算机工程》2004,30(5):21-22,37
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。  相似文献   

3.
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题.为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用潜在语义索引方法获得原始特征向量的潜在语义结构.实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维.  相似文献   

4.
王国勇  徐建锁 《计算机应用》2004,24(2):53-55,68
文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类速度很低,甚至应用Kohonen网络进行分类,不能取得理想结果;新方法应用LSA理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而大大提高了文本分类的精度和速度,同时根据因子分析理论给出了维数K的选取方法。  相似文献   

5.
潜在语义分析在进行大规模语义检索时计算效率较低、存储开销较大。针对该问题,提出一种基于聚类的潜在语义检索算法。通过文档之间的结构关系对文档进行聚类,利用簇代替文档分析潜在语义,以此减少处理文档的个数。实验结果表明,该算法能减少查询时间,且检索精确度较高。  相似文献   

6.
基于示例的文本标题分类机制   总被引:13,自引:0,他引:13  
文本分类有助于用户有选择地阅读和处理海量文本,给出了基于示例邀请魔王标题分类机制,它以具有确定分类标准的标题分类为应用前景,在计算标题与分类主题词表直接匹配的基础上,利用基于分类树的上位概念匹配机制和基于潜在语义空间的相似度判定,综合评价文本标题与类别的相关关系,其特点是充分利用上下文环境来确定标题与类别相关程度,而不是单纯地依赖于其共现信息。  相似文献   

7.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

8.
向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了如何通过计算检索向量和文档向量矩阵的相关度来确定返回的检索内容。  相似文献   

9.
尹盼盼  崔荣一 《计算机工程与设计》2011,32(12):4223-4226,4250
为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特征项的权重,构造引文的词项-文档关联矩阵,并利用奇异值分解方法构造引文的潜在语义空间,计算查询论文与文档库中论文的引文语义相关性;采用信息增益方法确定了引文相关性阈值,将引文相关性超过阈值的科技论文作为检索结果返回。实验结果表明,提出的检索方法的准确率、召回率、综合性能均高于基于概括性信息(标题、摘要、关键词)的检索方法。  相似文献   

10.
对矩阵奇异值分解的特征进行分析,并将矩阵的奇异值分解应用于向量空间模型,对其进行改进,实现基于语义的信息检索模型,该模型能消除同义词和多义词的影响,提高了文本表示的准确性,从而使信息检索的准确率有显著提高,具有重要的实用价值。  相似文献   

11.
李旻松  段琢华 《计算机应用》2011,31(9):2429-2431
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力, 通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。  相似文献   

12.
关于信息过滤模型的探讨   总被引:13,自引:1,他引:12  
信息过滤技术已是当今信息技术研究的热点。该文主要是针对信息过滤模型的研究,介绍了布尔模型、向量空间模型和潜在语义索引三种信息过滤模型。并就其概念、方法和意义进行了分析和讨论。  相似文献   

13.
潜在语义分析在中文信息处理中的应用   总被引:11,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

14.
Kristof  Dirk   《Decision Support Systems》2008,44(4):870-882
Customer complaint management is becoming a critical key success factor in today's business environment. This study introduces a methodology to improve complaint-handling strategies through an automatic email-classification system that distinguishes complaints from non-complaints. As such, complaint handling becomes less time-consuming and more successful. The classification system combines traditional text information with new information about the linguistic style of an email. The empirical results show that adding linguistic style information into a classification model with conventional text-classification variables results in a significant increase in predictive performance. In addition, this study reveals linguistic style differences between complaint emails and others.  相似文献   

15.
奇异值分解的可自恢复的图像篡改认证方案   总被引:1,自引:0,他引:1  
提出一种图像的自嵌入水印算法,该算法将图像分块奇异值分解,并提取每块的最大奇异值实施量化生成量化图像。量化图像生成的二值编码经过置乱和混沌加密后嵌入到原始图像的置零位之中。算法不仅能检测和定位对图像的篡改,而且能恢复被篡改图像的内容。实验结果表明篡改定位准确,被损坏的图像内容恢复质量较好。  相似文献   

16.
潜在语义分析理论及其应用   总被引:17,自引:1,他引:17  
潜在语义分析(Latent Sereantic AnMysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。  相似文献   

17.
张秋余  刘洋 《计算机应用》2007,27(6):1382-1384
潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。  相似文献   

18.
提出了一种融合奇异值分解(SVD)和最大间距准则鉴别分析(MMC)的人脸识别方法。对人脸图像进行奇异值分解,选取较大的一组奇异值构成特征向量,对所有训练样本按照最大间距准则鉴别分析算法计算投影矩阵,把人脸图像矩阵在投影矩阵上投影得到特征矩阵。融合决策阶段,在以上两类特征集中,分别计算待识别样本到所有训练样本的欧氏距离并对得到的两类结果进行加权融合,最后根据最近距离分类器分类。基于ORL人脸数据库上的实验结果表明算法的有效性。  相似文献   

19.
融合自适应加权和局部奇异值分解的人脸识别   总被引:2,自引:1,他引:1  
提出了融合自适应加权和局部奇异值分解的人脸识别方法。首先,对每个训练样本分割出人脸图像的5个特殊区域并分别进行奇异值分解,提取一些较大的奇异值构成每一区域的特征向量。然后,计算各局部块的类内距离平均值和类间距离平均值,从而得到各部分对应的权值。识别阶段,计算待识别人脸图像每一区域对所有训练样本人脸图像相应区域的隶属度,最后采用加权融合策略做出判断。基于ORL和FERET人脸数据库的实验结果表明提出的方法具有有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号