首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于字符串相似性聚类的网络短文本舆情热点发现技术   总被引:2,自引:0,他引:2  
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.  相似文献   

2.
政府实行科学决策需要掌握网络舆情.分析了网络论坛类媒体发布信息的特点.从技术层面提出了一种主动发现网络舆情热点的方法.  相似文献   

3.
面向舆情分析的短文本频繁模式聚类算法   总被引:1,自引:0,他引:1  
基于短文本的舆情分析是当前信息挖掘与情感分析领域的研究重点,针对网络环境中大量的短文本信息的鲜明特点,本文突破了传统基于词的分类方法,提出一种基于后缀数组频繁模式发现的聚类算法,利用后缀数组频繁模式精确去重算法得到关键词库,结合局部性原理对位置点聚类之后作有意义字串挖掘,进而进行文本舆情分析,以便及时动态了解网络群体的情感方向以及社会舆情热点。  相似文献   

4.
为了有效地对不断涌现的海量互联网信息进行采集、分析、检索,基于网络舆情分析涉及到的热点发现与文本倾向性分析两个关键技术,改进了相似主题检测和基于语气标注方法的文本倾向性分析算法.实验结果表明,直接通过关键词匹配法,误差较大;基于关联规则的相似主题检测,可以明显提高检测精度.同时,无论是对正面文档还是对负面文档,经过改进...  相似文献   

5.
目前的网络舆情分析系统一般采用输入的关键词进行检索,无法及时发现未知的热点事件。针对这一问题,设计实现了一个具有实用意义的舆情信息分析系统,并将改进的K-MEANS算法应用于文本聚类来自动发现当前的热点主题。运行结果表明,系统可以及时发现热点话题并对事件实时追踪。  相似文献   

6.
提出一种基于LDA模型的K-means聚类的话题发现,并在网络食品安全问题中进行效果验证.该算法中使用LDA模型对文档空间建模,并选取文档对主题的概率分布作为每篇文档的向量,利用K-means算法对这些向量进行聚类处理,最终得到话题发现的结果.为了验证试验的效果,还进行了1组使用传统的VSM模型下的Kmeans算法的实验作为对照组.通过在涵盖43个食品安全分类的1 920条新闻报道和腾讯微博的数据上的实验,记录了6个不同迭代次数下的结果并得到平均值,实验结果表明该方法在3个评估指标P、R、F上都比传统方法提高了20%.  相似文献   

7.
基于co-ICIB联合聚类的舆情监测系统的设计为舆情信息库,它通过联合聚类等数据挖掘算法可以快速及时地发现新的舆论热点.当舆论热点被确认,即在互联网上真正成为一个备受关注的话题时,文本分类算法可以将同一话题内的信息归类,有助于跟踪舆情的发展趋势.该舆情监测系统可为舆情监管部门提供原始舆情资料、数据性图表和建议性分析.  相似文献   

8.
社交网络已经成为人们获取信息和进行社会交往的重要平台。一个话题经过众多网民评论与传播, 可能演变成社会关注的热点舆情。在社交网络文本大数据背景下, 从话题产生源头把握其演化趋势和发展规律, 对负向或弱正向话题采用适当的策略加以引导, 使其朝着正向发展, 对社会稳定具有重要意义。当前国内外相关研究尚处于起步阶段, 理论方法和研究手段还不成熟。在综述的基础上, 文章系统地提出网络舆情引导策略的理论与方法, 包括社交网络舆情生命周期与结构平衡协同演化模型;基于网络结构平衡的结构洞分析、关键节点人物识别、同质化分析的舆情引导模型特征参数分析;社交网络舆情正向引导式学习模型、算法及系统。  相似文献   

9.
为分析与预测社交网络中舆情传播过程和演化趋势,本文基于Multiagent分布式技术,建立了社交网络舆情传播模型,研究社交网络舆情传播方式,并根据Agent的行为和状态特性,对A-gent进行分类,分析Agent的属性特征,通过剖析Agent个体之间的交互微观行为,依据信息价值时效性、信息源覆盖率和信息关注度,对转发行...  相似文献   

10.
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。  相似文献   

11.
基于立场检测和主题挖掘的突发公共事件舆情演化研究,能够帮助政府及利益相关者快速地掌握突发公共事件网络舆情的演化规律,具有重要的意义。划分具体突发公共事件的舆情生命周期,提出新的立场检测模型和主题句挖掘方法,针对每个生命周期阶段,在识别大众网民的立场信息的基础上筛选出高效用的舆情信息,再挖掘高效用舆情信息的主题,以深入分析突发公共事件主题信息的演化规律。以“杭州女子失踪案”的微博数据为例,首先将本文方法与多种方法的实验结果进行对比分析,验证了方法的有效性;然后基于实验结果进行舆情演化分析,证明了其能够在实际的突发公共事件舆情中快速聚焦关键点,较好地分析突发公共事件舆情演化规律和特点。该方法能较有效、准确地识别和分析舆情内容,为网络舆情演化的研究提供了新视角。  相似文献   

12.
地方政府网络舆情监测系统研究   总被引:1,自引:0,他引:1  
为了提高网络舆情监测的时效性与准确性,改进了Nutch信息采集的方法,加入了URL分析、判重、页面时限等功能,提高了舆情采集的效率。利用《综合电子政务主题词表》构建了舆情监测领域本体,加入了辖区知识进行了扩展,提出了语义扩展的舆情监测算法。实验结果表明,舆情监测的准确率和召回率都有明显提高。  相似文献   

13.
基于信息挖掘的高校网络舆情监测系统开发   总被引:1,自引:0,他引:1  
受网上各种信息的影响,高校大学生对社会诸多现象、现实和问题等反应敏感,易受到错误言论的蒙蔽和误导。针对高校网络舆情监测与预警手段方面的严重不足,开发了一个基于网络信息挖掘技术的高校网络舆情监测系统,系统利用网络蜘蛛技术、中文分词技术和文本聚类技术,通过对互联网信息进行采集、处理,舆情识别分析,实现了舆情热点与话题信息的推送与跟踪功能,可进一步分析舆情内容的观点与态度问题,筛选并判定各级别网络舆情的发生,从而进行公共危机和热点事件的监测和预警。  相似文献   

14.
基于舆情事件的词汇关联分析,既是面向网络舆情的情报研究中的一项关键技术,也是保证和提高网络舆情分析质量的一个重要途径.文章研究基于词跨度的关键词获取算法,对候选  相似文献   

15.
针对网络舆论系统演化过程中选择何种导向方法的问题,通过社会网络分析(SNA)法研究网络中个体(Agent)的点度中心度.设计了1种网络舆论导向的算法,对导向中常见的软控制与硬控制方法进行了定量分析.以天涯论坛上1个网络事件为实验数据,对导向算法进行了仿真验证,并深入分析了这种导向算法在舆论演化各个阶段的运用方法.该研究具有一定的理论指导意义与实际应用价值.  相似文献   

16.
舆论和舆情是一对从属概念,两者既有共同点又有差异性,必须对两者进行必要的关系辨析。本文从两者的内涵界定出发,对两者的共同点进行了研究,并从四个方面解构了两者的差异性,旨在为舆论和舆情的基础研究提供新的视角。  相似文献   

17.
针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.  相似文献   

18.
为了定量分析网络舆论导向机理与作用效果,设计了一种算法,基于社会网络分析(SNA)中的网络中心势对网络舆论导向中常见的硬控制与软控制方法进行了定量分析. 以天涯论坛上的“华南虎”事件为实验数据,对该算法进行了仿真验证,并深入分析了这种导向算法在舆论演化各阶段的运用方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号