首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 55 毫秒
1.
随着微博平台的快速发展,垃圾信息检测与过滤也面临着巨大的考验,实时精确地识别垃圾信息对于提高用户的体验以及微博平台的可持续发展意义重大.本文根据新浪微博的真实数据,提出了一种基于多特征的垃圾微博检测方法.首先,提取微博的显式特征(用户特征、内容特征);然后利用文档主题生成模型(LDA)提取微博中的隐含主题特征;最后根据所提取的微博特征利用支持向量机(SVM)构建分类器.实验结果表明,该方法相比于现有方法在准确率和F1值方面都有一定的提升.  相似文献   

2.
李伟  马永征  沈一 《计算机科学》2014,41(3):223-227
隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种用于挖掘文档集中潜在主题信息的无监督主题模型。而LDA模型的变形Labeled-LDA则可以作为有监督的多标签分类器,它建立了主题与标签的一一映射,从而学习出词与标签之间的关系。近年来,图模型在文本挖掘方面的应用取得了良好的效果,通过对文档建立图模型,为进一步分析文档的语义提供了新的途径。提出了一种利用Labeled-LDA和文档图模型进行文本分类的新算法,与传统的LDA模型方法相比,该方法的性能有较大的提高。  相似文献   

3.
为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题、疾病看作词语,通过主题模型LDA发现隐含的药物功能,通过药物功能,将相关药物、相关疾病和药物与疾病联系起来。根据药物对药物功能的分布对药物进行聚类,每一类药物被相关的疾病所描述,进而对临床用药进行分析。Ma LDA不仅能发现临床用药中针对某一类疾病效用较好的药物,而且能发现隐含的联合用药。实验数据来源于上海市某医院137 510位病人的用药记录和就诊记录。实验结果证实了Ma LDA相对于其他方法在对电子就医记录进行用药分析的有效性。  相似文献   

4.
针对慕课教学过程中存在的学生能力差异、缺乏针对性等问题,提出一种基于局部社区发现的主题交互模型,对学生能力评估过程进行主题建模,采用局部社区发现算法对学生各方面能力进行合理的等级分类;同时在原有课程实验平台基础上,改进并搭建能够全方位追踪和收集学生行为信息且具有较强交互性的慕课平台.两者结合应用于信号处理系列课程教学实践中,结果表明,主题交互模型对能力评估的准确率明显高于传统考核方式,并且辅以针对性的课堂交流与培养,学生各方面能力均得到不同程度的提高.  相似文献   

5.
微博文本短小、特征稀疏、与用户查询之间存在语义鸿沟的特点会降低语义检索效率。针对该问题,结合文本特征和知识库语义,构建基于潜在语义与图结构的语义检索模型。通过Tversky算法计算基于Hashtag的特征相关度;利用隐含狄利克雷分布算法对Wikipedia语料库训练主题模型,基于JSD距离计算映射到该模型的文本主题相关度;抽取DBpedia中实体及其网络关系连接图,使用SimRank算法计算图中实体间的相关度。综合以上3个结果得到最终相关度。通过短文本和长文本检索对Twitter子集进行实验,结果表明,与基于开放关联数据和图论的方法相比,该模型在评估指标MAP,P@30,R-Prec上分别提高了2.98%,6.40%,5.16%,具有较好的检索性能。  相似文献   

6.
基于Labeled-LDA模型的文本分类新算法   总被引:13,自引:0,他引:13  
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro_F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro_F1提高约3%.  相似文献   

7.
为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。  相似文献   

8.
杜慧  陈云芳  张伟 《计算机科学》2017,44(Z6):29-32, 47
主题模型利用快速的机器学习算法从高维稀疏的单词数据中提取出低维的主题表示,实现了对文档单词的聚类。对主题模型中的参数进行估计是该领域的一项重要研究工作。详细描述了概率潜在语义分析模型和潜在狄利克雷模型以及主题模型中基本的参数估计方法,并对模型的困惑度进行了实验比较。  相似文献   

9.
针对协同过滤推荐算法的冷启动和数据稀疏问题,提出一种结合LDA和用户特征的协同过滤算法.利用基于吉布斯采样的LDA主题模型生成项目-主题隶属概率矩阵,通过矩阵运算构造用户-主题评分数据,设计结合夹角余弦法的用户相似性计算方案,从概率角度论证方案处理稀疏数据的有效性;针对用户特征信息结合海明距离进行编码,设计冷启动用户相似性评价方案,提高冷启动用户相似性评价的合理性.基于MovieLens数据集的实验结果表明,所提算法在面临数据稀疏和冷启动问题时均有较好推荐效果,在最近邻个数较少时有较好表现.  相似文献   

10.
文本表示是自然语言处理中的基础任务,通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时,无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法,引入维基百科词条之间的关系,通过PageRank传播模型,能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。  相似文献   

11.
WWW论坛中的动态网页采集   总被引:5,自引:0,他引:5       下载免费PDF全文
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTCJ)算法,采用一种基于版面扩展的采集策略。实验证明,该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略;具有良好的泛化能力,应用在实践中已覆盖各种类型的论坛12 000余个。  相似文献   

12.
首先分析了短信传输方式:SP-手机和手机-手机,然后分析垃圾短信过滤位置的选择及提出了垃圾短信的过滤方法。最后给出系统的设计思想。  相似文献   

13.
基于内容的垃圾短信过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
李辉  张琦  卢湖川 《计算机工程》2008,34(12):154-156
研究一种基于最小风险贝叶斯决策的垃圾短信过滤方法。对于以文本信息为主的短信,采用信息增益的方法进行特征选择,使用基于最小风险贝叶斯决策方法进行分类。通过自建短信语料库对该方法进行了实验。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,分类正确率达到99.3%,符合了短信分类要求。  相似文献   

14.
李昕  朱永盛  武港山 《计算机工程》2006,32(4):88-90,93
引入多维文档模型来组织论坛消息的描述性特征和语义性特征,并在多维索引的基础上,提出了加窗分析技术。目的在于分析论坛站点中语义漂移现象,进而发现论坛中的完整语义信息单元。  相似文献   

15.
介绍一种基于Web挖掘和URL相结合的Web过滤方法,利用Web挖掘实现基于内容的离线Web分类,有效地解决了单纯基于关键词过滤和人工维护URL过滤系统的缺陷。实验结果表明,该系统对于网页类别的识别达到了可以接受的程度,具有良好的实用价值。  相似文献   

16.
面向网上论坛的信息抽取技术   总被引:5,自引:0,他引:5  
在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架、叙述了其具体实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。  相似文献   

17.
面向网络论坛的高质量主题发现   总被引:4,自引:0,他引:4  
陈友  程学旗  杨森 《软件学报》2011,22(8):1785-1804
提出了一种通用的高质量主题发现框架.在该框架下,利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题.提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性.在腾讯论坛数据集上进行了大量的实验.实验结果表明,该框架能够很好地发现高质量主题.提出的特征抽取算法、特征选择算法以及高质量主题发现框架能够在很多Web2.0领域得到应用,例如,博客、社会网络平台等.  相似文献   

18.
为了实现Web图像检索结果的聚类,提出了一种Web图像的图聚类方法.首先定义了两种类型关联:单词与图像结点之间的异构链接以及单词结点之间的同构链接.为了克服传统的TF-IDF方法不能直接反映单词与图像之间的语义关联局限性,提出并定义了单词可见度(visibility)这一属性,并将其集成到传统的tf-idf模型中以挖掘单词-图像之间关联的权重.根据LDA(latent Dirichlet allocation)模型,单词-单词之间关联权重通过一个定义的主题相关度函数来计算.最后,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web图像聚类性能的目的.  相似文献   

19.
图像-文本相关性挖掘的Web图像聚类方法   总被引:1,自引:0,他引:1  
吴飞  韩亚洪  庄越挺  邵健 《软件学报》2010,21(7):1561-1575
为了实现Web图像检索结果的聚类,提出了一种Web图像的图聚类方法.首先定义了两种类型关联:单词与图像结点之间的异构链接以及单词结点之间的同构链接.为了克服传统的TF-IDF方法不能直接反映单词与图像之间的语义关联局限性,提出并定义了单词可见度(visibility)这一属性,并将其集成到传统的tf-idf模型中以挖掘单词-图像之间关联的权重.根据LDA(latent Dirichlet allocation)模型,单词-单词之间关联权重通过一个定义的主题相关度函数来计算.最后,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web图像聚类性能的目的.  相似文献   

20.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号