共查询到20条相似文献,搜索用时 171 毫秒
1.
《计算机应用与软件》2017,(1)
微博作为一种流行的信息交流平台,已经受到人们的广泛关注。如今有关微博搜索结果处理的研究也已经成为热点,其中微博对比话题摘要是一个比较新颖的微博搜索结果处理方法。不同于基于微博消息的对比话题摘要生成算法,基于话题集合的中文微博对比话题摘要生成算法是将话题集合进行对比并生成微博对比话题摘要。实验数据表明,以话题集合为单位生成对比话题摘要可以改善单条微博消息信息量不足的缺点,提高对比话题摘要的代表性。 相似文献
2.
对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。 相似文献
3.
一种中文微博新闻话题检测的方法 总被引:6,自引:3,他引:3
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 相似文献
4.
6.
8.
基于词共现图的中文微博新闻话题识别 总被引:2,自引:0,他引:2
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性. 相似文献
9.
提出一种在大规模微博短文本数据集中自动发现新闻话题的方法。该方法在微博数据预处理之后,综合TF-IDF、文档频率增长率和命名实体识别等几个因素抽取微博数据中的主题词。根据主题词之间的语义关系来构建主题词的语义共现图,计算出语义共现图的连通子图,把每个不连通的簇集看成一个新闻话题。在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。 相似文献
10.
11.
近年来,社交网络数据挖掘作为物理网络空间数据挖掘的一大热点,目前在用户行为分析、兴趣识别、产品推荐等方面都取得了令人可喜的成果。随着社交网络商业契机的到来,出现了很多恶意用户及恶意行为,给数据挖掘的效果产生了极大的影响。基于此,提出基于用户行为特征分析的恶意用户识别方法,该方法引入主成分分析方法对微博网络用户行为数据进行挖掘,对各维度特征的权重进行排序,选取前六维主成分特征可以有效识别恶意用户,主成分特征之间拟合出的新特征也能提升系统的识别性能。实验结果表明,引入的方法对微博用户特征进行了有效的排序,很好地识别出了微博社交网络中的恶意用户,为其他方向的社交网络数据挖掘提供了良好的数据清洗技术。 相似文献
12.
汉语三字词声调的模式分析 总被引:4,自引:0,他引:4
汉语三字词的声调模式是复杂的。本文对4 男4 女各192 个三字词的声调进行分析,选择各音节的头尾差和相对调位比为特征,在进行特征抽取、统计和分析的基础上,研究了三字调整声调的模式和变调规则。本文的结果对三字词和连续语音声调的识别具有重要价值。 相似文献
13.
深入解析Web主题爬虫的关键性原理 总被引:1,自引:0,他引:1
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。 相似文献
14.
15.
该文在研究了信息检索理论与文本倾向性分析技术等的基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法。它综合考虑了主题检索过程中的查询扩展、文本检索相关度、文本倾向性强度和检索主题与文本情感的关联度等对观点检索最后结果的影响。该算法从理论上考虑了观点检索不同因素之间的相互影响问题。通过对COAE2008观点检索子任务的实验数据进行实验,结果表明 该文提出的基于关联度的观点检索算法可以取得较好的效果。 相似文献
16.
17.
18.
相关向量机(Relevance vector machine, RVM)是一种函数形式等价于支持向量机(Support vector machine, SVM)的全概率模型,利用变分贝叶斯(Variational Bayesian, VB)方法求解的RVM可以给出所有参数的后验分布. 进一步,通过对样本所在原始特征空间的稀疏化,基于线性核的RVM可以在分类的同时实现对原始特征的线性选择. 本文在传统VB-RVM的基础上提出一种特征选择和分类结合方法. 该方法采用Probit模型将分类问题与回归问题有机地结合起来, 同时,通过对特征维的幂变换扩展,不仅在分类时增加了样本的信息量, 可以构造非线性分类面,而且实现了非线性特征选择的功能. 通过对仿真数据和实测数据分别进行实验, 证明了该特征选择和分类结合方法的实用性和有效性. 相似文献
19.
周岳 《数码设计:surface》2010,(11):38-39
本文旨在由事物之间相关联的属性,探究视觉符号中的关联意义,结合现实生活中的实例和历史文化中的视觉符号语言,揭示其魅力以及视觉形象对人们的心理的导向性。同时结合笔者多年参与视觉传达设计的实践经验,分析视觉语言传达所要把握三点,即掌握关联、打破关联和建立关联。通过对其分析、总结,从而对视觉语言的关联意义进行剖析。 相似文献