首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
话题摘要是自然语言处理中对文本进行内容归纳和概要生成的技术.传统的话题摘要研究主要针对新闻、Web网页和博客这样的长文本,本文研究微博短文本的话题摘要问题.本文以微博转发消息为对象,提出具有拓扑结构的微博话题摘要生成算法(Microblog topic summarization,MTS).首先通过微博转发上下文确定代表性词项;然后识别微博转发中的话题区域,从广度和深度两个方向对话题进行归并操作;最后,基于转发关系生成具有拓扑结构的微博话题摘要.本文实验采用真实的微博事件数据集验证MTS算法的有效性和可行性,并采用可视化方式展现微博话题摘要的结果.  相似文献   

2.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

3.
突发事件在微博中迅速传播,产生巨大的影响力,因此,突发舆情受到政府、企业的广泛关注.现有的突发话题检测算法只考虑单一的特征实体,无法处理微博中新词、图片、链接等诱导的突发.面向大规模微博消息流,提出一种无需中文分词的实时突发话题检测框架模型.模型依据消息流动态调整窗口大小,并通过传播影响力度量实体的突发权值.采用高阶联合聚类算法同时对实体、消息、用户进行聚类分析,在检测突发话题的同时,得到话题的关联消息及参与用户.对比实验结果表明,算法的准确性高,能够更早地检测到突发话题.  相似文献   

4.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

5.
微博突发话题检测方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
邱云飞  程亮 《计算机工程》2012,38(9):288-290
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。  相似文献   

6.
微博具有信息量庞大,信息分散多样等特点,已经成为快速分享和传播信息的新平台.传统话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,存在一定的局限性,因此研究了大规模微博文本集上的话题发现问题.采用具有分词准确率较高、歧义识别特点的西南交通大学思维与智慧研究所中文分词系统对文本进行分词处理,并提出了基于混合模型的微博交叉话题发现算法.实验结果表明,该算法具有一定可行性和有效性.  相似文献   

7.
受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。  相似文献   

8.
针对由于微博文本的数据特性造成的传统信息搜索方法无法直接实现微博话题内容搜索的问题,提出了一种基于卷积神经网络的微博话题内容搜索方法,对微博安全话题内容进行搜索和匹配排序。该方法包括基于深度卷积神经网络的微博内容筛选和微博内容匹配两部分。微博内容筛选依据深度卷积特征表示进行微博内容筛选,微博内容匹配通过卷积特征非线性变换对筛选结果进行匹配排序。微博内容筛选和微博内容匹配对国民安全话题相关的微博文本内容局部特征进行处理,对筛选结果进行相似度计算从而实现相似度匹配。实验结果表明该方法在微博搜索性能上优于现有同类方法,并验证了所提出方法针对安全话题的微博文本内容搜索的有效性。  相似文献   

9.
社交网络舆情分析是一种新的研究趋势,而其中微博话题的情感倾向性判定是社交网络舆情分析中的热点。针对微博内容特征以及微博间转发、评论关系特征,构建情感分析用词典、网络用语词典以及表情符号库,设计基于短语路径的微博话题情感倾向性判定算法,以及基于多特征的微博话题情感倾向性判定算法,并进一步利用微博间的转发和评论关系对基于多特征的微博话题情感倾向性判定算法进行优化,其微平均正确率与F值分别达到85.3%和79.4%。  相似文献   

10.
一种中文微博新闻话题检测的方法   总被引:6,自引:3,他引:3  
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。  相似文献   

11.
潮流话题     
POPO是由网易公司开发的一款免费多媒体即时通讯工具,不仅支持即时文字聊天、语音通话、视频对话、文件断点续传等基本即时通讯功能,还提供邮件提醒、多人兴趣组、在线及本地音乐指教、网络电台、发送网络多媒体文件、网络文件共享、自定义软件皮肤等多种功能。  相似文献   

12.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

13.
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。  相似文献   

14.
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。  相似文献   

15.
在深入分析当前流行的文本主题提取技术和方法的基础上,提出一种将本体技术应用于文本主题提取的方法。使用本体技术用语义向量表示文本句,对文本进行预处理,然后进行语义相似度计算和语义聚类,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法在提取文本主题方面是一个有效的方法。  相似文献   

16.
软件特征定位是软件演化活动得以顺利展开的前提条件。当前特征定位研究的性能仍有待于进一步提高。为了获得较好的性能,在文件夹粒度上获取主题知识,将系统中同一个文件夹下的所有类(class)划分为同一个主题知识类,提出利用深度学习算法——循环神经网络RNN(Recurrent Neural Networks)进行面向主题的特征定位。同时,在该方法的基础上提出了一种改进的模型。为了使实验结果更具现实意义,与基线方法和其他一些方法相比,将实验数据从10组提高到531组和将检索率从15%缩小到10%,即使在这种情况下,所获得的实验结果,无论是从正面与基线方法相比还是从侧面与目前的一些特征定位方法相比,该方法都获得了不错的性能。  相似文献   

17.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

18.
提出一种识别网络新闻中主要内容与标题不相符或相关性不大的低价值新闻的算法。该算法先从新闻标题中提取出最能反映新闻主题的两个主题词,再分析主题词在正文中的分布情况,并计算出相关概率,以相关概率来判断是否为低价值新闻。实验证明该算法的识别率可达到85.71%,高于基于主题句相似度计算方法的72%,且该算法不受新闻正文长度的影响,是一种实用有效的识别方法。  相似文献   

19.
通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.  相似文献   

20.
主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法.实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号