首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对博客文章内容上,包含多个主题,类别归属不明显,多为作者自己主观意见且结构上,包括不同于文本的标签,普通文本分类方法直接应用于博客文章效果不理想的问题,提出一种结构特征和内容分析融合的博客文章分类方法。内容上,通过迭代两种不同特征选择方法,提高特征集代表性的前提下,利用正文,标题两个方面分类.结构上,利用博客文章特有的标签分类,并将三个方面融合。实验结果表明,改进的分类方法有效地提高了博客文章分类的性能。  相似文献   

2.
现有的博客文章分类的研究通常直接沿用传统文本分类方法,并没有结合博客自身的特点。研究基于文章要素的影响分析实现分类效果的改进。提出了一种简单的博客文本去噪方法,以保证博客数据的可靠性;提出了基于博客标签的中文词库扩展方法,用于改善中文分词效果,以提高博客分类的准确性;根据综合评价模型G1法计算博客文章中标题、标签、类别、首段、末段以及正文等文章要素的权重,分析它们对博客分类的影响。实验结果表明,研究提出的方法比传统的TFIDF方法有更好的分类效果。  相似文献   

3.
一种基于多特征融合的博客文章排序算法   总被引:1,自引:1,他引:0       下载免费PDF全文
卢刚 《计算机工程》2009,35(2):47-48,5
随着博客数据的迅速增长,在网络媒体中进行信息检索时的效率问题日益受到人们的关注。该文在针对博客搜索中特有的用户需求以及博客系统自身特点进行分析的基础上,提出一种基于博客文章相关性、时效性、查询类型和博客作者兴趣特征一致性等多特征融合的博客文章排序算法。实验结果证明了该算法性能优于传统算法。  相似文献   

4.
任永功  尹明飞  杨荣杰 《计算机科学》2012,39(5):177-179,212
近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。  相似文献   

5.
恶意代码分类是一种基于特征进行恶意代码自动家族类别划分的分析方法。恶意代码的多维度特征融合与深度处理,是恶意代码分类研究的一种发展趋势,也是恶意代码分类研究的一个难点问题。本文提出了一种适用于恶意代码分类的高维特征融合方法,对恶意代码的静态二进制文件和反汇编特征等进行提取,借鉴SimHash的局部敏感性思想,对多维特征进行融合分析和处理,最后基于典型的机器学习方法对融合后的特征向量进行学习训练。实验结果和分析表明,该方法能够适应于样本特征维度高而样本数量较少的恶意代码分类场景,而且能够提升分类学习的时间性能。  相似文献   

6.
近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分.提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法.首先采用基于主题的情感识别模型判断句子的多标记情感类别,在此基础上结合三支决策理论,最终实现对文本篇章的多标记情感分类.实验结果表明,该方法在文本篇章的多标记情感类别识别上取得了令人满意的结果.  相似文献   

7.
该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素——特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。  相似文献   

8.
基于类别选择的改进KNN文本分类   总被引:3,自引:0,他引:3  
特征高维性以及算法的泛化能力影响了KNN分类器的分类性能.提出了一种降维条件下基于类别的KNN改进模型,解决了k近邻选择时大类别、高密度样本占优问题.首先使用一种改进的优势率方法进行特征选择,随后使用类别向量对文本类别进行初步判定,最后在压缩后的样本集上使用KNN分类器进行分类.试验结果表明,提出的改进分类模型提高了分类效率.  相似文献   

9.
视频对象自动分类是智能视频监控的重要技术基础之一.为了提高分类精度,必须选择合适的对象特征.目前常用的视频对象分类方法都缺乏对于分类特征重要性的评价机制.提出一种视频对象分类特征评价与选择方法,该方法基于Adaboost算法的思想,通过对特征贡献进行定量评价实现特征选择.实验将视频对象区分为"单个行人"、"人群"、"车辆"和"骑车的人"四种类别,证明了该方法的合理性和有效性.  相似文献   

10.
文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用。目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点。为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象。基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标。综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型。  相似文献   

11.
提出一种基于近似最小闭包球原理的中文博客(Blog)话题分类方法。根据近似最小闭包球原理,将支持向量机的优化求解转换为近似最小闭包球求解,使得只需选择大规模数据集的一个核心子集参与分类器的训练过程,以提高Blog话题分类中大规模训练集的处理能力。在较大规模的Blog数据集上进行中文Blog特征选择及话题分类实验。实验结果表明,该方法不仅准确率可达到支持向量机同等的效果,且可减少训练时间,获得较好的Blog话题分类效果。  相似文献   

12.
论坛帖子对话行为分类可以明确每个帖子在当前线索中的角色,有助于重构论坛线索中的对话关系,提高论坛信息检索的效果。该文提出了一种基于弱监督学习的论坛帖子对话行为分类方法,把帖子的对话行为分类作为线索的序列标注问题来解决。该方法的特点是只要指定合理的特征约束,就可以训练对话行为分类模型。方法在CNET和edX数据集上的分类精确率分别达到75.6%和60.7%,优于有监督的条件随机域方法。  相似文献   

13.
随着网络的发展,Web论坛成为Web用户信息共享和分组合作的新平台.Web论坛上积累了海量的知识,由此成为互联网上进行数据挖掘的宝贵资源.在Web论坛上的应用常受到论坛上低质量帖子(垃圾贴)的影响.因此针对在Web论坛上进行垃圾贴过滤的问题,提出了基于隐含狄利克雷分布的CJTM和CAJTM模型,CJTM和CAJTM模型利用了论坛帖子的文本内容,帖子间的回复链接信息和作者信息,和传统的分类方法及基于规则的方法相比,CJTM和CAJTM模型不需要训练集和规则集.在实际Web论坛数据中进行的实验显示出较好的效果.  相似文献   

14.
针对已有网络教学的不足,分析了博客与RSS对网络教学应用新需求的适用性,从架构、开发工具、功能模块方面介绍了一个融合RSS的教学博客的构建。以此教学博客为基础,设计了8个教学应用,用于满足迅捷发布和获取有效教学信息、课后小结复习、学习进展跟踪、作业网络提交和批改、学习反思、个性化学习、协作化学习、分享教学资源。  相似文献   

15.
Blog作为个性化的个人知识管理系统,越来越受到教育工作者的关注并逐步被应用到教育教学中。特别是在高等职业教育中,Blog更易被广泛的应用于教育教学的各个方面。该文针对Blog的特点和高等职业教育的特点,就Blog在高等职业教育中的应用作了较为全面的阐述,列举了相应的实施措施并提出了存在的几个问题。  相似文献   

16.
Sponsored blog posts need to disclose sponsorship information, specifically whether the blogger received any compensation for the posts. While some bloggers simply include sponsorship information only (i.e., “simple” sponsorship disclosure), others add a note that the opinions in the post are honest although it is a sponsored post (i.e., “honest opinions” sponsorship disclosure). This study examines how emphasizing “honest opinions” in sponsored posts affect consumers' responses. This study found that, compared to the no disclosure (control) condition, source credibility perceptions and message attitudes became negative in the “simple” sponsorship condition. However, the negative effects of sponsorship disclosure on source credibility perceptions and message attitudes disappeared in the “honest opinions” condition. This trend was stronger among those who had high skepticism toward product review blog posts.  相似文献   

17.
博客的特性与图书馆的资源共享、个性化服务、等理念不谋而合,共通使博客能够自然而然地融入图书馆事业当中,推动图书馆事业在新的层面上加速发展。本文首先介绍博客的相关知识,并具体分析了博客与图书馆的传统网络服务方式的不同,然后探讨了博客在图书馆应用的可行性,最后提出了图书馆博客站点信息管理的一般性模式。  相似文献   

18.
一种基于图的层次多标记文本分类方法   总被引:1,自引:0,他引:1  
由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号