排序方式: 共有230条查询结果,搜索用时 15 毫秒
101.
随着微博注册用户的增长,探测不活跃账号,自动判定用户活跃度有重要的商业价值。该文提出了一种自动检测算法并通过实验验证。算法核心是提出的影响用户活跃度的4个判定因子,可由用户行为计算得到。算法包含用户活跃度概率层次模型(ADPHM)和用户评分模型(USM)。ADPHM模型计算用户是不活跃用户的概率;USM模型计算用户活跃度得分。实验数据集包含了新浪微博2 316 281个用户信息和141 322 019条微博内容。实验结果表明,该算法能在线性时间复杂度下自动检测出不活跃账号,完善用户可信度评估体系。 相似文献
102.
基于机器学习的中文微博情感分类实证研究 总被引:3,自引:0,他引:3
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。 相似文献
103.
104.
微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。 相似文献
105.
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA和HMM模型优缺点,提出了微博主题挖掘模型MB-HL(Microblog-Hidden Markov Model Latent Dirichlet Allocation)。该模型用逐条微博作为处理单元,建立分布主题-词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。 相似文献
106.
微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别看作一个序列标记问题,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖以及情感词典,从而可以识别出微博中的情感对象。该方法的优势在于能够应用于情感对象未显性出现的情况。实验结果表明该方法比现有方法能更有效地识别出微博中的情感对象。 相似文献
107.
一种基于情感符号的在线突发事件检测方法 总被引:4,自引:0,他引:4
如何快速高效检测出海量数据流中的突发事件是目前的研究热点之一.文中针对微博数据流,提出了一种新颖的基于情感符号的在线突发事件检测算法框架.伴随着事件的发生,文本流中情感符号也存在突发现象.文中通过实时监测情感符号变化态势,及时发现情感符号的突发期,达到挖掘突发事件的目的.首先基于频繁模式挖掘和互信息相结合的算法构建情感符号模型,并通过此模型抽取数据流中的情感符号,采用改进Kleinberg算法检测突发期,通过启发式的近邻传播聚类算法检测突发事件并对事件进行合并.同时,算法设置了离线回收机制,对不含情感符号的博文进行回收利用以保证事件概要抽取的完备性.实验表明,该算法可有效地挖掘出突发事件,无论在速度还是精度上都能保证实时在线处理的要求. 相似文献
108.
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。 相似文献
109.
该文主要研究如何自动识别微博中用户对各品牌汽车进行评价的句子。针对微博中汽车宣传信息较多而由真正汽车用户发出的观点句所占比例很小的特点,该文提出了结合微博和汽车评论语料的基于SVM模型的分类方法。选取的特征包括词语、评价词个数、与评价对象有关的词语以及微博相关特征。实验表明,评价词特征和部分微博相关特征可有效提高分类器性能,使用微博和汽车评论两种语料进行训练的分类器性能要比仅使用微博语料的方法好。 相似文献
110.
话题摘要是自然语言处理中对文本进行内容归纳和概要生成的技术.传统的话题摘要研究主要针对新闻、Web网页和博客这样的长文本,本文研究微博短文本的话题摘要问题.本文以微博转发消息为对象,提出具有拓扑结构的微博话题摘要生成算法(Microblog topic summarization,MTS).首先通过微博转发上下文确定代表性词项;然后识别微博转发中的话题区域,从广度和深度两个方向对话题进行归并操作;最后,基于转发关系生成具有拓扑结构的微博话题摘要.本文实验采用真实的微博事件数据集验证MTS算法的有效性和可行性,并采用可视化方式展现微博话题摘要的结果. 相似文献