首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 875 毫秒
1.
随着网络信息技术的迅速发展,互联网已经成为人们获取和发布信息的最重要平台之一.在互联网的信息传播过程中,话题相关文本不断更新,而其内容焦点也随着话题发展发生着迁移.识别话题内容焦点有助于有效地挖掘与分析网络信息,是网络舆情分析领域的重要研究问题.文中针对网络流文本,提出了一种网络话题内容焦点的识别方法,首先对话题焦点特征在流文本中的分布情况进行分析,基于分析结果介绍了焦点识别方法3个主要步骤的算法模型,分别是基于时间属性的焦点特征词提取、内容焦点特征词的合并和内容焦点的表示.文本基于来自于真实网络的实际数据,对所提方法进行了实验验证,实验结果表明文中所提方法可有效获取话题发展过程中的内容焦点,并能以关键词集和语句集的形式对内容焦点进行表示.  相似文献   

2.
随着互联网信息的快速剧增,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义.目前研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不是很好.为了使机器更好地理解用户需求和文本内容,使过滤结果更能反映用户的真正需求,提高文本过滤的准确率和召回率,提出了基于用户本体模型UOM的文本信息过滤方法.该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等.基于UOM(User Ontology Model)的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高.通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效地为用户提供过滤服务.  相似文献   

3.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

4.
文本情感分类的核心问题是如何有效地表示文本的情感语义,然而,目前的大多数方法只考虑到了文本内容中的情感语义,忽略了与文本内容相关的用户信息以及文本内容所描述的产品信息。已有的包含用户和产品信息方法也存在着以下两个问题:(1)不能有效地表示用户和产品信息,而且模型复杂度过高导致训练速度满。(2)文本情感语义表示模型过于简单,不能有效地表示文本中的上下文语义信息。针对以上两个问题,提出了相应的解决方案:(1)针对用户和产品的评价数据,利用奇异值分解(Singular Value Decomposition,SVD)的方法得到用户和产品的语义准确的先验信息,同时避免了用户和产品信息等相关参数的训练,缓解了模型复杂度高的问题。(2)利用双向的门循环单元(GRU)模型代替原有的简单模型,更加有效地结合了文本中的上下文语义信息。实验结果表明:相比传统的文本分类方法,提出的方法有更好的分类效果,在部分实验数据中达到了最好的分类准确度。同时模型的训练速度也得到了提升。  相似文献   

5.
相似用户挖掘是提高社交网络服务质量的重要途径,在面向大数据的社交网络时代,准确的相似用户挖掘对于用户和互联网企业等都有重要的意义,而根据用户自己的兴趣话题挖掘的相似用户更符合相似用户的要求。提出了一种基于用户兴趣话题进行相似用户挖掘的方法。该方法首先使用TextRank话题提取方法对用户进行兴趣话题提取,再对用户发表内容进行训练,计算出所有词之间的相似度。提出CP(Corresponding Position similarity)、CPW(Corresponding Position Weighted similarity)、AP(All Position similarity)、APW(All Position Weighted similarity)四种用户兴趣话题词相似度计算方法,通过用户和相似用户间关注、粉丝重合率验证相似用户挖掘效果,APW similarity的相似用户的关注/粉丝重合百分比为1.687%,优于提出的其他三种算法,分别提高了26.3%、2.8%、12.4%,并且比传统的文本相似度方法Jaccard相似度、编辑距离算法、余弦相似度分别提高了20.4%、21.2%、45.0%。因此APW方法可以更加有效地挖掘出用户的相似用户。  相似文献   

6.
基于合作模式的文本过滤模型   总被引:4,自引:0,他引:4  
文本过滤为因特网上用户提供信息服务,旨在帮助用户选择和处理自己感兴趣的文本。本文提出了基于合作模式的文本过滤模型。其基本思想是根据用户评注将用户分成若干类别,综合类别内外用户评注影响,给出了文本推荐机制,将相关文本推荐给用户。此外,利用相关反馈进行类别和参数重新调整,可以有效地改善过滤的效率。该方法不仅适用于单纯文本介质,而且还可以应用到其他非文本介质。  相似文献   

7.
基于示例的用户信息需求模型的获取和表示   总被引:7,自引:0,他引:7  
为了获取用户的信息需求,并依据信息需求模型在因特网上搜索相关文本,文章提出了基于示例的用户信息需求模型的获取和表示方法。其基本思想是:在用户给定的示例文本集的基础上,利用特征项的类别区分度,抽取能够表现用户兴趣的项作为用户信息需求模型的基本特征项集。然后,基于统计上的Fisher准则,进行判别分析,以获取特征项在相关文本的判定中的重要程度。最后,给出用户信息需求模型的逻辑和物理表示。  相似文献   

8.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

9.
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。  相似文献   

10.
传统的推荐系统面临着诸如数据稀疏性、无法解释的推荐等几个挑战。为了解决这些问题,许多研究通过挖掘评论文本语义信息来提高推荐性能。然而,这些方法在文本特征建模和文本交互方面存在问题。在文本建模方面,它们简单地将用户/物品的所有评论拼接成一个单一的评论。然而,单词/短语级别的语义信息可能与评论文本的整体语义信息相悖。在文本交互方面,它们将交互推迟到预测层,无法捕捉用户和物品之间复杂的相关性。为了解决这些问题,我们提出了一种新颖的基于层次型文本交互的表示学习方法。在该方法中,我们以层级方式对低级单词语义和高级评论文本进行建模,以便在不同粒度上挖掘文本信息。为了进一步捕捉复杂的用户-物品的交互关系,我们提出在不同层次上挖掘用户-物品之间的语义关联。在单词级别上,我们提出了一种针对每对用户-物品个性化的注意力机制,来捕捉表示每个评论的重要单词。在文本级别上,我们在用户和物品之间相互传播文本语义信息,并捕捉针对目标任务有用的评论文本。最后,我们通过协同过滤框架,将该方法应用于评分预测应用场景,并通过在公开数据集上的对比实验,证明该方法在评分预测方面的性能优于现有方法。  相似文献   

11.
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。  相似文献   

12.
严宇宇  陶煜波  林海 《软件学报》2016,27(5):1114-1126
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性.  相似文献   

13.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

14.
垂直学习社区包含了海量的学习资源,出现了信息过载现象,个性化推荐是解决这个难题的方法之一.但垂直学习社区中评分数据稀疏而文本、社交信息丰富,传统的协同过滤推荐算法不完全适用.基于用户产生的文本和行为信息,利用作者主题模型构建新的用户学习兴趣相似度衡量模型;根据用户交互行为信息综合考虑信任与不信任因素构建用户全面信任关系计算全面信任度;通过分析用户多维度学习行为模式,自动识别用户学习风格;最后提出融合兴趣相似度、全面信任度及学习风格的社会化推荐算法.用垂直学习社区网站CSDN实际数据集进行了实验分析.结果表明本文提出的推荐方法能更好向用户推荐其感兴趣的学习资源,有效地提高了推荐精度,进而提高用户学习效果.  相似文献   

15.
社会化标签系统允许用户使用个性化的词汇对网络中的资源进行标注而被用户广泛接受。在微博网络中,用户可以为自己加注标签以推广自己或者方便别人找到自己。深入分析了微博用户数据,总结了微博用户标签的特点,针对LDA(latent Dirichlet allocation)主题模型在处理短文本时存在的不足,提出了一种基于好友关系约束主题模型。在此基础上对微博用户标签进行主题分析,计算用户的主题分布,对标签词进行聚类,并最终为用户推荐标签。通过对比实验证明了该方法可以提高标签推荐的准确度。  相似文献   

16.
邢千里  刘列  刘奕群  张敏  马少平 《软件学报》2015,26(7):1626-1637
微博环境中用户可以为自己添加标签,用户所添加的标签往往被视为是对自身特点和兴趣的重要描述信息.标签中所包含的信息可能有助于建立精确的用户描述,因此在个性化推荐、专家检索、影响力分析等应用中有潜在的应用价值.首先,在大规模数据上分析和研究了微博中用户添加标签的行为及标签内容分布的特点;之后,通过主题模型对用户的微博内容进行分析,实验结果表明:用户的标签越相似,微博内容也越相似,反之亦然;随后,分析了用户关注关系与微博和标签内容之间的联系,实验结果显示,有关注关系的用户之间微博和标签的内容越相似;基于这个发现,分别使用标签内容和微博内容对真实微博数据中的用户关注关系进行预测,结果表明:基于标签的预测方法其效果明显优于基于微博内容的预测方法,显示出用户标签在描述用户兴趣方面的价值.  相似文献   

17.
微博用户影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。  相似文献   

18.
为了提高从社交网络文本信息中发现热点话题的准确率,提出一种基于用户关联分析的热点话题识别算法。该算法综合考虑词频变化率和用户权威度,词频变化率通过EMA和MACD等指标来计算,用户权威度通过建立用户关联图的方式来计算。使用基于HITS算法的话题热度度量计算方法,将词频变化率数据和用户权威度数据结合在一起,得到话题的热度值。实验结果表明,使用基于用户关联分析的热点话题识别算法能够提高热点话题发现准确率。  相似文献   

19.
传统多维度文本聚类一般是从文本内容中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息,提出一种结合用户行为信息的多维度文本聚类模型(MTCUBC)。根据文本间的相似性在不同空间上应该保持一致的原则,该模型将用户行为信息作为文本内容聚类的约束来调节相似度,然后结合度量学习方法来改善文本间的距离,从而提高聚类效果。通过实验表明,与线性结合的多维度聚类相比,MTCUBC模型在高维稀疏数据中表现出明显的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号