首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 17 毫秒
1.
2.
针对个人技术博客缺乏深层次的主题挖掘,较少利用文本挖掘或机器学习算法研究其领域方向和演化态势的问题,提出了一种基于LDA模型和社交网络的个人技术博客文本挖掘算法.首先,通过Python抓取CSDN论坛的博客文本;其次,利用LDA模型和层次聚类算法挖掘技术博客的核心主题,揭示其博客创作的演化历程;最后,通过社交网络分析法...  相似文献   

3.
利用LDA模型对教育技术学领域核心期刊进行主题挖掘和演化趋势分析。结果显示:在2012—2021年间,教育技术学领域共有26个研究主题,其中有在线学习等8个热点主题;在线学习等10个主题呈上升趋势,远程教育等5个主题呈下降趋势,智慧教室、教学模式等11个主题演化趋势较为曲折。由此可见,将LDA模型引入到教育技术学领域中进行主题挖掘是行之有效的,希望能对后续研究者提供帮助和借鉴。  相似文献   

4.
本文提出一种基于LDA(Latent Dirichlet Allocation)主题模型的协同过滤算法,通过提取并分析商户所接收到的来自不同用户的评论文本,计算商户之间的相似度,再联合传统的基于物品的协同过滤算法,从而进行推荐.实验结果表明,该方法取得了较为理想的结果,能够提高推荐准确度.  相似文献   

5.
6.
传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent Dirichlet Allocation model-LDA-Collaborative Filtering),在传统的协同过滤算法基础上,通过LDA模型对评论文本中的主题进行分类,从各个主题层面挖掘用户的情感偏好,计算用户之间的相似度,进而向目标用户推荐商品。对京东平台牙膏的评论数据集的实验结果表明,该算法不仅可以缓解由于评分数据较少造成的稀疏性问题,推荐的精确度也有所提高。  相似文献   

7.
在互联网高度发展和智能技术普及的大环境下,电商平台出现了大量的评论数据,它们对挖掘用户需求和建立商品口碑具有重要价值。文章爬取了京东电商平台上某品牌手机的评论数据,并基于预处理之后的数据进行了倾向性分析和LDA主题模型分析。研究结果表明,该品牌手机具有外观好看、充电快、性价比高和拍照功能强大等优势,但也有新品定价偏贵、保值率低、售后服务差、部分包装零件不全等不足之处。所得结论为该品牌手机升级提供一定的参考依据。  相似文献   

8.
微博文本简短、信息量少且语法随意,传统主题分类并不理想.Labeled LDA在LDA主题模型上附加类别标签协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐式微博或主题频率相近的分类上,存在一定的模糊分配.本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐式微博、优化同频分配,采用吉布斯采样的方法求解模型.在真实数据集上的实验表明,Union Labeled LDA模型能更有效地对微博进行主题挖掘.  相似文献   

9.
随着微博的广泛应用,每天会产生海量的微博文本,从这些海量的微博文本中快速准确地发现热点话题已经成为微博研究的重点。文章利用LDA模型进行特征选择,降低了数据处理的维度,提高了微博热点话题算法效率。  相似文献   

10.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

11.
有监督主题模型的SLDA-TC文本分类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.  相似文献   

12.
4G时代的到来,各大通信运营商业务迅速发展,客户投诉量也飞速增长。不同于传统投诉只是为了收集客户反馈,为客户提供更好的服务,如今大数据时代的到来,海量的投诉数据更是一个宝藏库,不但可以使得运营商对于客户的投诉做出更快的反应,而且能挖掘出新的业务增长点,寻求更大的商业价值。在此背景下,本中挖掘技术得以发挥巨大作用。文本挖掘技术是数据挖掘技术的一种。要进行文本挖掘首先需要对海量投诉数据进行建模。文中通过对非结构化的运营商海量投诉数据利用向量空间模型进行数据建模并利用关联规则进行优化从而实现向量降维,达到了建立并简化向量空间模型的目的,提高了文本挖掘的效率。  相似文献   

13.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

14.
针对测试验证时雷达软件缺陷预测精度和效率不高的问题,提出一种基于LDA主题模型的雷达软件缺陷分类算法,融入面向雷达领域的分词字典,实现对雷达软件的准确分词。通过获取以功能、性能和接口等需求为导向的隐含主题,有效提高雷达软件缺陷分类的准确度和有效性,进而提升雷达软件测试设计工作的质量和效率。  相似文献   

15.
针对新冠疫情期间高校疫情管控过程中所出现的舆情问题,提出一种基于词频分析与LDA模型的舆情情感分析方法。首先,从微博上挖掘与疫情防控有关的话题,采用Python爬虫爬取8219条微博留言;然后,运用情感分析与LDA模式,对正负情绪进行主题挖掘,并使用PyLDAvis进行可视化展示;最后,利用社会网络和Gephi对正面和负面的舆论影响进行相关性分析。实验结果表明,研究可为高校有效管理提供理论依据和技术支撑。  相似文献   

16.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

17.
彭杰  石永革  高胜保 《电信科学》2016,32(9):139-145
传统的主题挖掘模型一般仅从交互型文本中挖掘出文档主题,为了能够从中挖掘出会话主题并提高挖掘模型的普适性,提出了一种基于对话内容的交互型文本会话主题生成模型。首先通过分析交互型文本的特征,基于主题树的概念,定义了一个5层结构的对话生成树。以此为基础,再基于LDA构建会话主题生成模型(ST-LDA)。最后采用吉布斯抽样法对ST-LDA进行推导,得到会话主题及其分布概率。使用实际数据进行验证,结果表明,ST-LDA模型可以从交互型文本中有效地挖掘出会话主题。此外,成果可以降低分类算法的复杂度,回溯主题—参与者关联关系,具有较好的普适性。  相似文献   

18.
19.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

20.
互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合文本挖掘技术设计了网站分类系统的模型,同时对其开发步骤进行了说明。最后展望了此技术方案在相关领域的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号