首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
潜在语义分析在中文信息处理中的应用   总被引:13,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

2.
基于潜在语义分析的信息检索   总被引:14,自引:1,他引:14  
潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法。  相似文献   

3.
TCBLSA:一种中文文本聚类新方法   总被引:7,自引:3,他引:7  
王国勇  徐建锁 《计算机工程》2004,30(5):21-22,37
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。  相似文献   

4.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

5.
肖正  刘辉  李兵 《计算机科学》2014,41(9):248-252,284
情感倾向分析本质上可以看作是一个情感极性分类问题。在海量数据处理的大背景下,为了提高文本情感判断的准确率,提出了一种结合潜在语义分析LSA(Latent Semantic Analysis)和支持向量机SVM(Supported Vector Machine)的文本褒贬情感倾向分类方法。从语义的角度利用潜在语义分析方法建立"词-文档"的语义距离向量空间模型,然后使用具有良好分类精度和泛化能力的支持向量机进行情感分类。实验结果表明,该方法在句子简短、情感倾向比较明显的Web评论中的准确率较传统的SVM方法有了一定的提高,在测试集上的分类准确率接近88%。  相似文献   

6.
基于潜在语义分析和自组织特征映射神经网络(LSA—SOM),本文提出一种文本聚类方法。采用潜在语义分析的理论表示文本特征向量,以体现特征词的语义关系并实现特征向量的降维。利用SOM网络算法进行无监督自组织学习,并通过不断调节网络节点间的权向量来实现文本聚类。该方法不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,克服传统方法中文本种类需要预先给定的缺点。  相似文献   

7.
王国勇  徐建锁 《计算机应用》2004,24(2):53-55,68
文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类速度很低,甚至应用Kohonen网络进行分类,不能取得理想结果;新方法应用LSA理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而大大提高了文本分类的精度和速度,同时根据因子分析理论给出了维数K的选取方法。  相似文献   

8.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

9.
微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模。提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。  相似文献   

10.
基于潜在语义分析的汉语问答系统答案提取   总被引:24,自引:0,他引:24  
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词一句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果.  相似文献   

11.
基于潜在语义分析的跨语言查询扩展方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统查询扩展方法存在的问题,提出一种基于潜在语义分析的跨语言扩展方法,利用聚类提高扩展文本集合的精度,并用潜在语义分析实现无需翻译的查询扩展,减轻翻译歧义带来的影响。实验结果表明,该方法能够获得较好的性能。  相似文献   

12.
贝叶斯概率LSA模型权重更新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对潜在语义分析(LSA)模型的权重更新问题,提出了一种基于贝叶斯理论的自适应权重更新算法ALSAB。ALSAB采用最大后验概率估计与期望值最大(EM)算法对概率LSA模型参数进行有效的估计,在充分考虑多次更新中不常用字词概率参数降低问题的前提下,采用增量学习方法降低多次更新产生的累积效应。实验结果表明,与现有的权重更新算法相比,提出的ALSAB算法显著地提高了检索的准确率与召回率。  相似文献   

13.
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。  相似文献   

14.
对潜在语义分析(Latent Semantic Analysis,LSA)的理论基础进行了介绍,研究了潜在语义分析在中文短文写作自动评分领域的应用方法。从136名大学生的短文写作试卷着手,对比了不同的语义空间构造方法和不同数据标准化方法对机器自动评分结果的影响,探讨了SVD的作用和奇异值个数K的取值规律,比较了LSA对不同类型学生的短文写作自动评分结果的差异。通过与两名教师对学生短文写作评分的比较表明,使用机器对主观题进行自动评分是可行的,该方法为自动化考试系统试题多样性提供了有效的解决方案。  相似文献   

15.
基于潜语义分析的概念名称相似度算法   总被引:2,自引:0,他引:2       下载免费PDF全文
概念名称是本体映射中的一个重要要素。针对目前概念名称相似度计算中存在的概念名称多义性问题,提出一种改进的算法。该算法结合概念注释和义项解释,利用潜语义分析,明确概念在Wordnet中对应的义项,在一定程度上提高了相似度计算的准确度。实验表明该方法是切实可行的。  相似文献   

16.
李晓婷  张磊  沈建京 《计算机工程》2008,34(15):83-84,8
在网络信息时代,传统的统计预测方法已经不完全适用,而对特定领域的信息采集和统计的需求日趋明显,使有效定向采集和统计特定领域信息并得到其相应的预测结果成为一个日益重要的研究方向。该文通过运用汉语分词、潜在语义分析和语义匹配等技术,构造了用户兴趣模型,并同时使用了面向服务的体系结构来设计该Web信息采集统计服务,通过具体的实验验证了对Web信息结构分析和未知信息相关性预测来控制信息采集统计的效果。  相似文献   

17.
针对文本数据高维度的特点和聚类的动态性要求,结合隐含语义分析(LSA)降维,提出一种改进的ART2神经网络文本聚类算法,通过LSA凸显文本和词条之间的语义关系,减少无用噪声,降低数据维度和计算复杂性;采用改进的折中学习方法,减少计算步骤,加快ART2神经网络计算速度,并利用最近邻动态重组方法提高ART2网络聚类的稳定性,减弱算法对样本输入顺序的依赖。实验表明,改进的文本聚类算法能有效地实现动态文本聚类。  相似文献   

18.
Web服务匹配算法普遍缺少服务筛选机制,基于关键词对服务基本描述和服务质量描述进行匹配,会导致服务匹配效率低且准确率不高。该文提出一种基于潜在语义分析的Web服务筛选方法,将服务的基本描述和服务质量描述以树形结构属性模板表示,采用一定的词频统计和权重方法构建潜在语义空间,生成广告服务索引数据库,根据服务请求进行筛选。实验结果表明,该服务筛选方法具有较好的筛选准确率和筛选完全率,能够较大程度地提高服务匹配效率。  相似文献   

19.
基于潜在语义分析的构件聚类改进方法   总被引:3,自引:1,他引:2       下载免费PDF全文
针对基于向量空间模型的构件聚类方法存在高维稀疏、无法解决同义词等问题,采用基于潜在语义分析模型对构件进行聚类分析。从用户关注点出发,通过引入等级策略提出一种基于潜在语义分析的构件聚类改进算法。实验结果表明,该方法能够提高构件聚类质量,使构件聚类结果更符合用户需求和更加人性化,提高构件检索效率和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号