首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
Blog(博客)可以称为在线个人日志。作为一种新兴的媒体,Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息(话题发布时间、话题题目、话题内容、评论内容等)就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法,该方法通过分析Blog网站的HTML源代码,然后提取出网站的模板,并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取,并对这10个网站中的7 374个Blog网页进行了实验,实验结果表明,该方法能根据提取出的模板快速、准确地对Blog网页进行信息抽取。  相似文献   

2.
一种基于HITS算法的Blog文摘方法   总被引:1,自引:0,他引:1  
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。  相似文献   

3.
金相宏  李琳  钟珞 《计算机科学》2017,44(10):254-258
随着电子商务的飞速发展,网络购物越来越被消费者认同,而随之产生的产品评论给消费者的购买决策带来了影响。产品评论是指用户在购物站点上对商品的评价信息,而 经过分析和研究发现这些评论中充斥着大量的垃圾评论,因此垃圾评论的识别成了电子商务在提高服务质量的过程中需解决的重要问题之一。根据垃圾评论的主要特点提出LDA-SP(LDA-Sentiment Polarity)垃圾评论识别方法。首先利用LDA主题模型过滤出内容型垃圾评论,然后结合情感分析识别出欺骗型垃圾评论。对网络商城的大量评论数据进行准确度分析实验的结果表明,LDA-SP方法的识别准确度高于传统的LDA主题模型和单一的情感极性分析方法,能够有效地检测垃圾评论,从而使产品评论信息更加客观准确,为电子商务用户提供了有效的参考信息。  相似文献   

4.
面对网络上日益丰富的评论信息资源,如何在海量的客户评论中快速有效的获取并使用其中的有效信息,成为人们日益关注的问题。研究目标是互联网上的旅游评论,通过使用数据挖掘算法分析获取评论中关于商品或服务的主题词,并提取所有评论中包含主题词的句子。使用主题抽取模型(LDA模型)进行半监督的聚类处理,建立景点评论的主题模型,实现了互联网旅游评论个性化的设置和查询。  相似文献   

5.
一种适应短文本的相关测度及其应用   总被引:3,自引:1,他引:2       下载免费PDF全文
针对博客社区和BBS论坛充斥Web垃圾信息的问题,提出相关度向量空间模型cVSM,并以此作为评论的特征,采用支持向量机分类算法自动识别垃圾评论。cVSM包括一种适合短文本的相关测度,用于衡量评论和文章的语义相关程度。在中文博客测试集和中文BBS测试集上的实验结果表明,相比纯粹使用评论文本特征的方法,应用该模型时F1至少提高6%。  相似文献   

6.
由Logistic回归识别Web社区的垃圾评论   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。  相似文献   

7.
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。  相似文献   

8.
垃圾评论     
垃圾评论已经拥有英文标示SPLOG。SP为垃圾邮件SPAM的缩写,LOG取博客BLOG的后缀。我们预测,垃圾评论很可能成为垃圾邮件的变种,其泛滥的趋势很明显。效仿《互联网电子邮件管理办法》给垃圾邮件反向证明的界定方法,我们认为互联网评论应禁止群发,禁止主动发送广告,禁止对被评论对象进行人身攻击,更应禁止违法法律法规的信息传播。  相似文献   

9.
为了有效地对Blog进行摘要抽取,以一种合理的方式挑选出对Blog摘要抽取有帮助的评论,然后在考虑句子词频的基础上结合Blog的结构化信息和挑选出的评论信息来计算Blog句子权重。针对基于句子权重选择摘要句容易忽略次要主题的缺陷,提出一种结合Blog段落形式特点进行二次摘要抽取的解决方法。在随机下载的Blog数据中进行了实验,该方法具有较好的覆盖性和概括性。  相似文献   

10.
基于贝叶斯方法和信息指纹的博客评论过滤   总被引:1,自引:0,他引:1       下载免费PDF全文
博客的出现丰富和改变了网络的内涵,影响了人们的信息传递方式,同时博客评论作为一种交互方式在博客中广泛存在,给信息监管带来了新的问题。通过分析现有的博客过滤系统,将广泛应用于文本过滤的贝叶斯方法应用到博客评论中,针对博客评论中广泛存在的广告机器人特点,结合信息指纹对其进行识别和过滤。同时对影响博客评论过滤效果和执行速度的指纹函数进行了分析讨论和实验对比,实验结果表明基于贝叶斯方法和信息指纹相结合的博客评论过滤是行之有效的,而且相对于单独的贝叶斯方法更有利于提高系统运行效率和发现广告机器人现象。  相似文献   

11.
教育Blog是Blog技术被引入教育领域并与教育结合应用的产物。本文介绍教育Blog的基本概念,给出它的形式化定义,综述国内外教育Blog的应用现状,研究其对师范专业学生信息素养及专业成长的影响,并对教育Blog的前景作了总结和展望。  相似文献   

12.
Blog应用的技术解析   总被引:2,自引:0,他引:2  
从Blog面世以来,如何有效地应用Blog是学界感兴趣的课题之一,但Blog的“零技术”使很多人忽略了Blog开发者提供的支持技术。Blog有三大核心功能,RSS、TrackBackPing和Permalink。本文详细介绍了前两者和Tag标签的应用现状和实现方法,并对Blog及其技术的应用做了简要分析。  相似文献   

13.
Blog clustering is an important approach for online public opinion analysis. The traditional clustering methods, usually group blogs by keywords, stories and timeline, which usually ignore opinions and emotions expressed in the blog articles. In this paper, an integrated graph-based model for clustering Chinese blogs by embedded sentiments is proposed. A novel graph-based representation and the corresponding clustering algorithm are applied on the Chinese blog search results. The proposed model SoB-graph considers not only sentiment words but also structural information in blogs. Experimental results show that comparing with the traditional graph-based document representation model and vector space document representation model, the proposed SoB-graph model has achieved better performance in clustering sentiments in Chinese blog documents.  相似文献   

14.
由于通用搜索引擎的综合性,不具备面向专业的特点,所以在准确性和速度等方面存在不足。因此针对Blog这个全新领域,提出了一个面向Blog的网络爬行器算法,为Blog语料搜集以及相关Blog研究提供了方便。  相似文献   

15.
Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户。首先介绍了Blog的概念,阐述了Blog的三大核心技术:RSS、TrackBack Ping和Permalink。随后讨论了Web数据挖掘的概念及其分类,最后重点论述了把Web挖掘和Blog的三大核心功能有机结合在一起,能使Blog的价值得到更加充分的体现。  相似文献   

16.
Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户。首先介绍了web数据挖掘的概念,讨论了web数据挖掘的种类,随后对Blog,RSS的特征进行了阐述,最后重点论述了RSS空间里的的数据挖掘。  相似文献   

17.
This paper proposes a visualization method of news distribution in Blog space. Recently, Blog is becoming one of the important information resources on the Web, from which trend information can be obtained. On the other hand, online news site is another information resource, which reports latest events in the world. This paper focuses on the combination of both resources, and proposes a method for visualizing news distribution in Blog space, which indicates various access patterns to news articles in Blog space. The types of objects that are to be visualized as well as their relationships are defined, based on which interactive information visualization system is proposed. Experiments with test subjects are performed to investigate the viewpoints they employ for examining news distribution in Blog space. The results show that test subjects can examine news distribution in Blog space from various viewpoints, which affects their estimation of the impacts of news articles.
Yasufumi TakamaEmail:
  相似文献   

18.
Web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果.Blog作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户.首先介绍了web数据挖掘的概念,讨论了web数据挖掘的种类,随后对Blog, RSS的特征进行了阐述,最后重点论述了RSS空间里的的数据挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号