首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 80 毫秒
1.
云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop分布式系统集群上,使用MapReduce并行编程模型,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop框架的分布式朴素贝叶斯文本自动分类器不仅能处理节点失效,同时具有高效性和易扩展性的优势。  相似文献   

2.
文本分类技术作为信息检索和文本挖掘的重要基础,近年来得到广泛的关注和快速发展。而互联网上文本数据呈指数级的增长为文本分类带来了新的挑战。针对海量文本分类问题进行了研究,基于分布式计算框架MapReduce平台,实现了一种简单、有效的文本分类算法——平均多项朴素贝叶斯分类方法。实验中该方法分类准确率高于一般朴素贝叶斯方法,且具有较好的加速比。实验结果表明:由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法更适于海量文本数据分类。  相似文献   

3.
针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。  相似文献   

4.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。  相似文献   

5.
遆鸣  陈俊杰  强彦 《计算机工程》2012,38(19):45-48
在计算能力作业调度算法的基础上,提出一种基于模拟退火的Map Reduce作业调度算法.利用带记忆功能的模拟退火算法选择最优作业,从而避免陷入局部最优解.在Hadoop平台上的实验结果表明,该算法能减少所有作业的运行时间以及每个作业的等待响应时间,具有较高的作业调度效率及用户满意度.  相似文献   

6.
该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。  相似文献   

7.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

8.
车辆移动特性导致移动车辆云任务调度可靠性问题愈发复杂化,据此本文基于Map Reduce提出了车辆移动云任务调度算法,引进了混合整数线性规化最优化方法.通过Map Reduce进行车辆移动云任务调度建模,同时设计了最低复杂度调度算法,在减少任务执行延迟时间的基础上,保障了任务调度可靠性.以仿真分析验证了车辆移动云任务调度算法性能,结果表明,本文设计的OTS算法(移动云最优任务调度算法)的作业执行时间、调度成功率、吞吐量等相关性能明显较优,即作业执行时间非常少,保证可靠性,任务调度成功率较高,执行与输出传输延迟问题较少;吞吐量较高.  相似文献   

9.
云环境下传统任务分配与调度算法对于复杂任务调度的整体效率较低,为了提高Map/Reduce对复杂任务分配调度的整体效率,提出了一种基于任务处理时间的快速剪枝算法。该算法首先将复杂任务按照任务依赖关系大小进行最佳拓扑排序,使任务按顺序执行,从而提高调度准确率。然后使用节点处理任务的预测时间与节点处理能力的比值作为子任务在每个节点的处理时间进行量化建模,建立任务和处理时间的度量矩阵,通过采用按阶剪枝方法逐渐缩小任务分配规模,对N个节点处理N个任务的分配问题,进行N-1次操作可获得任务分配的最优解。运用Hadoop平台进行实验验证,从任务调度效率与资源使用率角度将剪枝算法与公平调度算法、遗传算法和GRAPHENE算法进行对比验证。实验结果表明剪枝算法能明显提高任务调度的整体效率,充分利用各节点的计算能力提高Map/Reduce调度效率。  相似文献   

10.
随着经济社会的高速发展和工业化建设程度不断提高,水环境问题已经严重影响甚至威胁了人类的健康。近年来,国家大力推行水环境的预测预警,许多专家学者利用人工神经网络等智能方法在富营养化评价及水华预测中得到了较为广泛的运用,也取得了一定成效。然而,人工神经网络的性能受到样本训练算法等方面的影响,在选取合适的神经网络模型、算法以及设置参数麻烦、耗时。随着问题复杂程度的增加,单个网络的隐层节点数将增加很多,训练时间将大大增加,从而造成训练困难。且由于训练过度或不够,往往导致泛化能力较差。为解决此问题,本文在对湖库水华形成机理深入分析的基础上,建立了BP网络的水华预测模型,并利用Bootstrap采样技术获取不同的数据集,分别训练多个BP网络,最终将多个网络进行集成用于建立太湖流域水华预测模型。通过基于Bagging算法的集成学习,可以对样本包含的信息进行充分挖掘,更全面的刻画因素之间的相互联系和变化规律。实验表明基于Bagging算法的BP网络集成模型预测结果与单个BP网络模型预测结果对比,具有较高的预测能力,从而获得了相对理想的预测效果。  相似文献   

11.
针对Naive Bayes方法中条件独立性假设常常与实际相违背的情况,提出了CLIF_NB文本分类学习方法,利用互信息理论,计算特征属性之间的最大相关性概率,用变量集组合替代线性不可分属性,改善条件独立性假设的限制,并通过学习一系列分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.  相似文献   

12.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2  
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

13.
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.  相似文献   

14.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

15.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

16.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

17.
潘志方 《计算机科学》2007,34(6):214-215
随着电子商务的不断发展,用户的分析和分类对电子商务网站来说越来越重要。因此需要一个行之有效的方法来进行用户分类并对其进行个性化服务。在本文中,我们提出了一种可以根据用户的网页访问记录和网上交易记录来动态地对顾客进行分类的方法,主要是利用了改进型的朴素贝叶斯分类器,对用户在网站上的行为进行分类,从而得到用户的分类信息,其结果可以作为提供个性化服务的依据。文章通过实验证明了上述方法的有效性和正确性。  相似文献   

18.
基于模糊聚类和Naive Bayes方法的文本分类器   总被引:3,自引:0,他引:3       下载免费PDF全文
本文提出一种文本分类的新方法,该方法将模糊聚类与基于Naive Bayes的EM分类算法相结合,从而大大提高了EM分类算法的准确性,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词,并把这些关键词作为聚类中心进行聚类,然后使用距离聚类中心较近的文档启动一个引导过程。  相似文献   

19.
本文提出了基于未标记的中文网页的增量式Bayes自动分类算法,实验结果表明,该算法是可行的和有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号