首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于潜在语义分析的BBS文档Bayes鉴别器   总被引:13,自引:1,他引:12  
电子公告栏(BBS)的滥用是一种以信息污染为特色的社会问题,对BBS文档进行鉴别已成为信息安全重要内容之一,该文融合了数据挖掘技术、数理统计技术和自然语言理解技术,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法:利用自然语言处理技术从训练文档中抽取典型短语集;通过潜在语义分析进行典型短语同义归约,应用关联规则采掘技术提高典型短语间的独立性;用Bayes分类器对BBS文档进行鉴别。该文还对影响系统的关键参数进行了大量的讨论和测试,实验表明该方法对于BBS文档的鉴别是可行而有效的。  相似文献   

2.
一种基于潜在语义分析的查询扩展算法   总被引:5,自引:0,他引:5  
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。  相似文献   

3.
基于潜在语义分析的信息检索   总被引:15,自引:1,他引:14  
潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法。  相似文献   

4.
针对文本挖掘过程中存在的搜索空间过大问题,介绍潜在语义分析的方法,指出该方法应用在文本情感分类中,具有空间占用小的优点,阐述潜在语义分析算法通过对词项和文档矩阵进行奇异值分解,能够有效降低文本情感分类的搜索空间并对词项在语义层面进行分析,解决一词多义的问题。  相似文献   

5.
针对现有的Web文本分类与表示方法中出现的各种分类效果与性能优化等问题,基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在语义分析使用矩阵的奇异值分解过程中引入不同类别信息,分析特征词的局部特征,使用支持向量机分类器计算文本对类别的相关度参数,并应用于局部区域生成过程。通过实验表明,S-LLSA算法有效解决了局部区域如何进行局部奇异值分解问题,有效提高并优化了Web文本分类效果,更好地表示了Web文本潜在语义空间。  相似文献   

6.
问答社区中候选答案过多会增加提问用户选择最佳答案的负担。为此,提出一种基于概率潜在语义分析(PLSA)模型的自动答案选择方法。在主题建模思想的基础上,利用问答社区中的用户资料,以PLSA模型表达问答社区中的用户兴趣分布,依据答案和问题之间的主题匹配度对候选答案进行排序。实验结果表明,该方法可有效挖掘用户兴趣,提高答案选择的准确率。  相似文献   

7.
王治和  王凌云  党辉  潘丽娜 《计算机应用》2012,32(11):3018-3022
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H PLSA模型和页面聚类的H PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k medoids 算法。设计并构建了H PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。  相似文献   

8.
采用类似于LSI的方法,对于blog网页的链接进行了一次关于潜在语义的探索,借以发现网络社区。从实验的结果来看,基本验证了最初的想法,网页链接在一定程度上包含潜在语义的信息。注意到语义网与现今的HTML网页在链接问题上思想基本一致(只是多了语义的标记),因此该方法同样适用于语义网内的社区发现与信息检索,这也是进行研究初衷。另一个贡献是通过幂迭代对GMC聚类作了算法上的优化,使得在海量数据上的处理速度大大加快。  相似文献   

9.
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。  相似文献   

10.
为减小图像检索中语义鸿沟的影响,提出了一种基于视觉语义主题的图像自动标注方法.首先,提取图像前景与背景区域,并分别进行预处理;然后,基于概率潜在语义分析与高斯混合模型建立图像底层特征、视觉语义主题与标注关键词间的联系,并基于该模型实现对图像的自动标注.采用corel 5数据库进行验证,实验结果证明了本文方法的有效性.  相似文献   

11.
BBS中主题发现原型系统的设计与实现   总被引:3,自引:1,他引:3  
BBS论坛已经成为人们获取信息、发表言论的重要场所,它由论坛注册用户所发表的大量主题组成。论文针对传统的BBS论坛中有影响力主题计算方法的不足,通过计算词语在回帖传播链上的影响力,提出了一种根据对有影响力词语聚类的方法发现BBS论坛中具有影响力的主题。它能够使用户和论坛管理人员及时、准确和方便地提取重要的主题信息。  相似文献   

12.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

13.
基于高权重词集的论坛影响力发现研究   总被引:1,自引:0,他引:1  
网络论坛是中国网民一个重要的意见传播渠道,论坛舆论领袖对网络舆论导向起着至关重要的作用,影响力发现为越来越多的研究人员所关注。针对传统的在线论坛中有影响力主题计算方法的不足,本文将论坛中帖子间的回复关系映射为发帖者之间的关联关系,构造出一个社群网络,提出高权重词集的概念,基于此,通过计算词语在回帖传播链上的影响力,设计并实现了论坛中成员的影响力计算模型。通过实验验证了该模型在时间、空间复杂性上的优越性,为进一步研究复杂网络中的人物行为奠定了基础。  相似文献   

14.
信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6% 和55.8%。  相似文献   

15.
文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。  相似文献   

16.
张磊  冯晓森  项学智 《计算机工程》2009,35(13):26-27,5
提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词.文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。  相似文献   

17.
李晓婷  张磊  沈建京 《计算机工程》2008,34(15):83-84,8
在网络信息时代,传统的统计预测方法已经不完全适用,而对特定领域的信息采集和统计的需求日趋明显,使有效定向采集和统计特定领域信息并得到其相应的预测结果成为一个日益重要的研究方向。该文通过运用汉语分词、潜在语义分析和语义匹配等技术,构造了用户兴趣模型,并同时使用了面向服务的体系结构来设计该Web信息采集统计服务,通过具体的实验验证了对Web信息结构分析和未知信息相关性预测来控制信息采集统计的效果。  相似文献   

18.
贝叶斯概率LSA模型权重更新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对潜在语义分析(LSA)模型的权重更新问题,提出了一种基于贝叶斯理论的自适应权重更新算法ALSAB。ALSAB采用最大后验概率估计与期望值最大(EM)算法对概率LSA模型参数进行有效的估计,在充分考虑多次更新中不常用字词概率参数降低问题的前提下,采用增量学习方法降低多次更新产生的累积效应。实验结果表明,与现有的权重更新算法相比,提出的ALSAB算法显著地提高了检索的准确率与召回率。  相似文献   

19.
魏强  金芝  许焱 《软件学报》2014,25(8):1640-1658
针对物联网中服务数量的大规模性、服务描述的异构性以及设备服务的资源高度受限性和移动性等特点,提出了一种基于概率主题模型的物联网服务发现方法.该方法的主要特点是:1) 利用英文Wikipedia 构建高质量的主题模型,并对类似短文本的服务文本描述进行语义扩充,使主题模型能够更有效地估计服务文本描述的隐含主题;2) 提出利用非参数主题模型学习服务文本的隐含主题,降低模型训练时间;3) 利用服务隐含主题对服务进行自动分类和文本相似度计算,快速减少服务匹配数量,加速服务文本相似度计算;4) 提出能够同时支持WSDL-based 和RESTful 两种物联网服务的signature 匹配算法.实验结果表明:与现有的物联网服务发现方法相比,该方法的准确率(precision)和归一化折损累积增益(NDCG)都有较大幅度的提高.  相似文献   

20.
一种基于类主题空间的图像场景分类方法   总被引:2,自引:2,他引:0       下载免费PDF全文
本文在扩展LDA(latent dirichlet allocation)的基础上提出了一种新的生成模型——基于类主题空间的潜在狄里克雷分布(CTS-LDA)用来实现自然图像场景分类。该方法不同于以往方法,它在训练时通过将图像场景类别信息引入模型推导过程中,产生各场景类的独立语义主题空间,使得每个场景类都有各自不同的主题空间,图像的最终语义表示采用与其类别相关的类主题集,是一种符合人类认知习惯的方法。以前所用的场景分类方法通常在得到图像主题表示后还需要依赖于其他分类器来完成场景分类,而CTS-LDA模型可以在分别计算图像在各类模型中的主题分布时,用最大似然法得出图像的类别信息。此外本文通过分析不同主题数对本模型性能的影响,得出了适用于本模型的最佳主题数。本文分别通过13,15等多类场景任务来检验模型的性能,实验证明该模型能够在不需要太多训练的情况下取得较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号