共查询到20条相似文献,搜索用时 78 毫秒
1.
基于潜在语义分析的BBS文档Bayes鉴别器 总被引:13,自引:1,他引:12
电子公告栏(BBS)的滥用是一种以信息污染为特色的社会问题,对BBS文档进行鉴别已成为信息安全重要内容之一,该文融合了数据挖掘技术、数理统计技术和自然语言理解技术,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法:利用自然语言处理技术从训练文档中抽取典型短语集;通过潜在语义分析进行典型短语同义归约,应用关联规则采掘技术提高典型短语间的独立性;用Bayes分类器对BBS文档进行鉴别。该文还对影响系统的关键参数进行了大量的讨论和测试,实验表明该方法对于BBS文档的鉴别是可行而有效的。 相似文献
2.
一种基于潜在语义分析的查询扩展算法 总被引:5,自引:0,他引:5
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。 相似文献
3.
4.
5.
针对现有的Web文本分类与表示方法中出现的各种分类效果与性能优化等问题,基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在语义分析使用矩阵的奇异值分解过程中引入不同类别信息,分析特征词的局部特征,使用支持向量机分类器计算文本对类别的相关度参数,并应用于局部区域生成过程。通过实验表明,S-LLSA算法有效解决了局部区域如何进行局部奇异值分解问题,有效提高并优化了Web文本分类效果,更好地表示了Web文本潜在语义空间。 相似文献
6.
7.
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H PLSA模型和页面聚类的H PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k medoids 算法。设计并构建了H PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。 相似文献
8.
采用类似于LSI的方法,对于blog网页的链接进行了一次关于潜在语义的探索,借以发现网络社区。从实验的结果来看,基本验证了最初的想法,网页链接在一定程度上包含潜在语义的信息。注意到语义网与现今的HTML网页在链接问题上思想基本一致(只是多了语义的标记),因此该方法同样适用于语义网内的社区发现与信息检索,这也是进行研究初衷。另一个贡献是通过幂迭代对GMC聚类作了算法上的优化,使得在海量数据上的处理速度大大加快。 相似文献
9.
10.
11.
BBS中主题发现原型系统的设计与实现 总被引:3,自引:1,他引:3
BBS论坛已经成为人们获取信息、发表言论的重要场所,它由论坛注册用户所发表的大量主题组成。论文针对传统的BBS论坛中有影响力主题计算方法的不足,通过计算词语在回帖传播链上的影响力,提出了一种根据对有影响力词语聚类的方法发现BBS论坛中具有影响力的主题。它能够使用户和论坛管理人员及时、准确和方便地提取重要的主题信息。 相似文献
12.
基于LDA模型的BBS话题演化 总被引:1,自引:0,他引:1
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。 相似文献
13.
14.
信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6% 和55.8%。 相似文献
15.
文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。 相似文献
16.
17.
18.
曾广平 《计算机工程与应用》2009,45(21):88-90
针对潜在语义分析(LSA)模型的权重更新问题,提出了一种基于贝叶斯理论的自适应权重更新算法ALSAB。ALSAB采用最大后验概率估计与期望值最大(EM)算法对概率LSA模型参数进行有效的估计,在充分考虑多次更新中不常用字词概率参数降低问题的前提下,采用增量学习方法降低多次更新产生的累积效应。实验结果表明,与现有的权重更新算法相比,提出的ALSAB算法显著地提高了检索的准确率与召回率。 相似文献
19.
针对物联网中服务数量的大规模性、服务描述的异构性以及设备服务的资源高度受限性和移动性等特点,提出了一种基于概率主题模型的物联网服务发现方法.该方法的主要特点是:1) 利用英文Wikipedia 构建高质量的主题模型,并对类似短文本的服务文本描述进行语义扩充,使主题模型能够更有效地估计服务文本描述的隐含主题;2) 提出利用非参数主题模型学习服务文本的隐含主题,降低模型训练时间;3) 利用服务隐含主题对服务进行自动分类和文本相似度计算,快速减少服务匹配数量,加速服务文本相似度计算;4) 提出能够同时支持WSDL-based 和RESTful 两种物联网服务的signature 匹配算法.实验结果表明:与现有的物联网服务发现方法相比,该方法的准确率(precision)和归一化折损累积增益(NDCG)都有较大幅度的提高. 相似文献
20.
本文在扩展LDA(latent dirichlet allocation)的基础上提出了一种新的生成模型——基于类主题空间的潜在狄里克雷分布(CTS-LDA)用来实现自然图像场景分类。该方法不同于以往方法,它在训练时通过将图像场景类别信息引入模型推导过程中,产生各场景类的独立语义主题空间,使得每个场景类都有各自不同的主题空间,图像的最终语义表示采用与其类别相关的类主题集,是一种符合人类认知习惯的方法。以前所用的场景分类方法通常在得到图像主题表示后还需要依赖于其他分类器来完成场景分类,而CTS-LDA模型可以在分别计算图像在各类模型中的主题分布时,用最大似然法得出图像的类别信息。此外本文通过分析不同主题数对本模型性能的影响,得出了适用于本模型的最佳主题数。本文分别通过13,15等多类场景任务来检验模型的性能,实验证明该模型能够在不需要太多训练的情况下取得较好的性能。 相似文献