首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
《软件》2016,(12):38-42
用户兴趣是对微博用户研究的重要内容,本文使用聚类方法提取用户兴趣。由于微博短文本的特征稀疏和上下文依赖性,传统方法不能取得良好的效果。本文对微博短文本进行基于LDA主题模型的特征拓展处理。LDA主题模型引入隐含主题,通过主题相似性,在一定程度上拓展文本特征,弥补原文本特征稀疏的缺点。并且,在处理多义词时,主题相似性能明显区分不同词义,以解决上下文依赖问题。在此基础上,通过文本聚类方法提取用户兴趣。通过实验表明,在引入LDA模型下,聚类效果和用户兴趣抽取的到明显提升,有效解决的微博用户兴趣发现中文博短文本特征稀疏和上下文依赖问题。  相似文献   

2.
提出一种基于词项关联关系与归一化割加权非负矩阵分解的微博用户兴趣模型构建方法.该方法首先基于词分布上下文语义相关性来建立词项关联关系矩阵刻画词项间相似度,然后应用归一化割加权非负矩阵分解算法获取用户—主题矩阵,产生用户感兴趣的微博主题聚类结果.实验表明,此方法能有效地进行微博主题聚类,并支持微博用户兴趣模型构建.  相似文献   

3.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

4.
基于兴趣聚类的自动建模   总被引:1,自引:0,他引:1  
针对传统粗兴趣粒度表示的建模方法不能准确描述每个用户的兴趣主题的问题,提出基于兴趣聚类的自动建模方法.利用文档聚类发现用户的多个子兴趣主题,从而提高对用户兴趣偏好描述的准确性.将该方法用于个性化信息检索,取得较好的效果.  相似文献   

5.
随着微博的日趋流行与广泛使用,新浪等微博网站已经成为海量信息的来源,虽然传统的文本主题挖掘方法已经得到广泛的应用研究,但对于微博这种特殊结构的文本,传统的挖掘算法不能很好地对其进行研究。为了弥补目前微博平台主题挖掘方法的不足,以及考虑到微博信息的稀疏性,多维性等特点,提出有针对性的预处理方法,将用户微博数据与AT模型结合,通过吉布斯采样进行微博主题挖掘,对作者主题进一步提取得到用户兴趣。通过在真实数据集上的实验,以及与LDA模型对比,证明该模型能有效得到微博主题。  相似文献   

6.
基于微博扩展的用户兴趣主题挖掘算法   总被引:1,自引:0,他引:1  
为解决基于微博的用户兴趣建模存在建模不全面的问题,提出一种基于微博扩展的用户兴趣主题挖掘算法。通过结合用户自身兴趣及用户关注人的兴趣来扩充微博用户兴趣,将兴趣分为长期兴趣、过期兴趣、近期兴趣,利用改进的TF. IDF算法分析相关微博内容,利用基于时间及文档频率加权的主题词重要度计算兴趣主题词得分,得出综合全面的用户兴趣。实验结果表明,综合分析用户及用户关注人的兴趣,可以有效得到真实、全面、包含潜在兴趣的用户个人兴趣。  相似文献   

7.
分析了不同的主题模型,通过实验比较了3种主题模型构建的微博用户兴趣模型的性能。实验结果表明:TwitterLDA适用于新文档或新用户的预测,AuthorLDA产生的主题具有较高的区分度,而UserLDA和AuthorLDA能更好地反映出用户的社交网络关系。上述工作为进一步研究主题模型如何应用于微博的个性化信息推荐、情感分析和话题检测与跟踪等文本挖掘应用奠定了基础。  相似文献   

8.
基于聚类分析策略的用户偏好挖掘   总被引:5,自引:0,他引:5  
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。  相似文献   

9.
江浩  陈兴蜀杜敏 《计算机应用》2013,33(11):3071-3075
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。  相似文献   

10.
随着Internet的迅速发展,人们必须面对信息爆炸的现实.描述了一种关键词向量的方式表达用户兴趣.将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型.基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性.  相似文献   

11.
为了解决推荐算法中用户标签稀疏、推荐准确度不高的问题,提出了一种基于用户标签的微博推荐算法。利用TextRank排序方法提取用户发布微博中的关键词,并对该关键词进行扩展,将其作为表示用户兴趣的标签;再根据微博的效应函数和生命周期形成待推荐的微博列表,计算用户标签及其同义词在待推荐微博列表 中出现的次数,将出现次数较多的TOP-k条微博推荐给用户。通过实验验证,该算法能够有效地解决用户标签的稀疏性问题,并能提高推荐算法的准确性。  相似文献   

12.
针对传统的协同过滤算法忽略了用户兴趣源于关键词以及数据稀疏的问题,提出了结合用户兴趣度聚类的协同过滤推荐算法。利用用户对项目的评分,并从项目属性中提取关键词,提出了一种新的RF-IIF (rating frequency-inverse item frequency)算法,根据目标用户对某关键词的评分频率和该关键词被所有用户的评分频率,得到用户对关键词的偏好,形成用户—关键词偏好矩阵,并在该矩阵基础上进行聚类。然后利用logistic函数得到用户对项目的兴趣度,明确用户爱好,在类簇中寻找目标用户的相似用户,提取邻居爱好的前◢N◣个物品对用户进行推荐。实验结果表明,算法准确率始终优于传统算法,对用户爱好判断较为准确,缓解了数据稀疏问题,有效提高了推荐的准确率和效率。  相似文献   

13.
用户兴趣建模是个性化服务的核心,考虑到情景信息对用户偏好的影响,对融和情景信息的用户行为日志数据进行深入研究,提出了一种基于情景信息的用户兴趣建模方法.该方法首先通过计算情景相似度来获得用户当前情景的近似情景集;对“用户-兴趣项-情景”三维模型采用情景预过滤的方法降维处理.然后根据用户浏览内容得到用户兴趣主题,分析页面内容得到每种主题的兴趣关键词,建立基于层次向量空间模型的用户兴趣模型.实验结果表明,本文提出的基于情景信息的用户兴趣模型对用户兴趣的预测误差控制在9%以内,是有效的.  相似文献   

14.
传统的协同过滤算法虽然可以很容易地挖掘出用户的兴趣爱好,但存在数据冷启动和稀疏性问题.针对这些问题,提出一种基于用户兴趣模型的推荐算法.首先通过LDA主题模型训练数据集得到物品-主题概率分布矩阵,利用物品-主题概率分布矩阵得到用户历史兴趣模型,然后结合用户历史行为信息和物品内容信息得到用户兴趣模型,最后计算用户与候选集之间的相似度,进行TOP-N推荐.在豆瓣电影数据集上的实验结果表明,改进后的推荐算法能够更好地处理稀疏数据和冷启动问题,并且明显提高了推荐质量.  相似文献   

15.
仲兆满  管燕  胡云  李存华 《软件学报》2017,28(2):278-291
微博用户兴趣挖掘是个性化推荐、社群划分的基础工作.在深入分析微博网络特点的基础上,给出了能够揭示微博网络多模性的描述模型,对面向微博网络的后续研究具有参考价值.根据微博网络的特点,提出了基于背景的用户静态兴趣表示及挖掘方法,以及基于微博的用户动态兴趣表示和挖掘方法.针对微博网络中缺少背景信息、发表微博很少的大量不活跃用户,提出了基于关注的用户兴趣挖掘方法.以新浪微博为例,选取了时尚、企业管理、教育、军事、文化这5个领域进行用户兴趣挖掘及相似度计算的实验分析和比较,结果表明,与主流的兴趣挖掘方法相比,该微博用户兴趣的表示和挖掘方法可以有效地改善微博用户兴趣挖掘的效果.  相似文献   

16.
微博用户利用标签信息表征其兴趣及属性,通过分析微博用户标签特点以及现有微博推荐方法的局限性,提出一种改进的基于多标签语义关联关系的微博兴趣建模方法。为了解决现有加标方法忽略了语义关联及多标签间关联的问题,首先通过计算标签对在微博用户集合中的共现频率得到标签对语义内联关系;其次构建由标签对连接词组成的路径,通过共享熵进一步计算标签对语义外联关系;最后将两者结合得到标签对语义关联关系矩阵,由此来对用户 标签矩阵进行更新,得到基于多标签语义关联关系的微博用户兴趣模型。以新浪微博公开API抓取的大量微博信息作为实验数据,进行了一系列的实验和分析,结果表明本文构建的用户兴趣模型具有较好的性能。  相似文献   

17.
协同过滤算法是目前推荐系统中最普遍的个性化推荐技术。针对传统算法相似性度量方法不足的问题,提出了融合用户兴趣变化和类别关联度的混合推荐算法。算法根据用户的评分项目信息来对项目进行类别划分,挖掘出用户对不同类别项目的喜爱关注程度;同时将基于时间的兴趣度权重函数引入项目相似度计算之中来进一步提高计算的精确度,最后将改进后的相似度计算方法融入到用户聚类方法中,用户聚类之后,其所在的类别将对用户推荐准确度产生极大的作用。实验结果表明,在Movielens-1k数据集上运行该算法,该算法在运行效率和精确度上都有所提高。  相似文献   

18.
针对传统信息推荐方式精度偏低的问题,引入用户画像作为推荐基础,在深入研究文本分类和用户行为后,提出一种基于动态用户画像的推荐方法.该方法通过动态分析用户历史数据,预测用户的兴趣变化趋势,从而实现动态推荐.离线实验证明,该方法在预测用户偏好变化方面具有一定优势,相较于传统的基于标签的信息推荐,提高了推荐精度.  相似文献   

19.
针对基于位置的社交网络(Location-Based Social Network,LBSN)中用户签到数据的高稀疏性问题及用户隐私问题,提出了一种混合推荐模型(SoGeoCat).首先,通过用户潜在兴趣点数据模型,学习用户的潜在兴趣点;其次,将用户的潜在兴趣点纳入融合类别信息的矩阵分解模型中并优化;最后,根据用户特征矩阵、兴趣点特征矩阵,提出推荐策略.基于Foursquare真实数据集,实验结果表明:(1)相比于其他几个推荐模型,该算法将用户的潜在兴趣点填充至用户-兴趣点矩阵中,可以有效地缓解数据稀疏性的影响;(2)该算法可保护用户家庭信息;(3)在推荐模型中纳入类别信息的影响能提高推荐效果.  相似文献   

20.
现有基于多兴趣框架的序列推荐方法仅从用户近期交互序列中学习得到用户多兴趣表示,忽略了数据集中项目间的关联信息。针对这一问题,提出了一种关联项目增强的多兴趣序列推荐方法IAMIRec(item associations aware multi-interest sequential recommendation method)。首先通过数据集中用户交互序列计算得到项目关联集合和对应的项目关联矩阵,然后根据项目关联矩阵通过多头自注意力机制建模用户的近期交互序列,最后使用多兴趣框架学习得到用户的多个兴趣向量并进行top-N推荐。在三个数据集上对该方法进行了测试与分析,IAMIRec在recall、NDCG(normalized discounted cumulative gain)和hit rate指标上的表现均优于相关方法。实验结果说明 IAMIRec可以实现更优的推荐性能,也表明引入项目关联信息可以有效增强用户的多兴趣表示。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号