首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
给出了一种使用在线线性判别学习模型进行垃圾邮件过滤的方法,使用贝叶斯理论进行特征提取,特征按出现的位置进行分类,不同类别的特征赋予不同的权重.在TREC测试集上进行了实验,并和TREC评测的结果进行了对比.实验结果表明,该方法取得了较好的结果.  相似文献   

2.
大量重复发送的邮件是垃圾邮件的主要生成方式,为检测这种类型的垃圾邮件,作者提出了一种基于指纹向量的自适应垃圾邮件过滤方法.该方法中,每封邮件通过q元取样后映射成指纹向量,如果两个邮件的指纹向量的距离较小,则认为其属于同一个类别.该方法具有计算速度快、占用计算资源小的优点,与传统的贝叶斯算法相比具有较优的性能,在TREC2007数据集的实验结果验证了所提出方法的有效性.  相似文献   

3.
针对朴素贝叶斯算法应用于反垃圾邮件过滤时,其有效性十分依赖于对邮件内容的有效建模,而邮件内容建模方面研究尚不成熟限制了贝叶斯方法在垃圾邮件过滤中的性能.采用了三种概率分布对邮件内容进行建模,据此提出了3种概率分布下的朴素贝叶斯算法.为了提高训练效率,算法采用了一种增量式的垃圾邮件过滤方法.在trec05p-1、trec06p两个公开数据集上对这3种贝叶斯算法进行了实验对比,分析出三种贝叶斯分布的适用范围.从不同分布的邮件内容建模角度出发,为过滤垃圾邮件的方法选择提供了有效依据.  相似文献   

4.
使用基于统计学习理论的支持向量机(Support Vector Machine,SVM)技术来构造垃圾邮件过滤系统.利用2个公开的邮件语料PU1和PU2来训练和测试过滤系统的性能.实验首先测试了语料的6种数据子集对过滤系统的分类错误率的影响情况,随后考察了采用不同类型核函数的SVMs准确率性能,最后考察了采用不同特征规模的数据集对过滤系统的影响.实验结果表明SVM技术是解决垃圾邮件过滤问题的一种很有效的方法.  相似文献   

5.
基于贝叶斯算法的垃圾邮件过滤技术   总被引:8,自引:0,他引:8  
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果.  相似文献   

6.
基于贝叶斯分类的邮件过滤方法及模型研究   总被引:6,自引:1,他引:5  
垃圾邮件日益泛滥,给用户带来了极大的不便和危害.并对网络安全构成威胁.传统邮件过滤方法单一,过滤精度不高,已不能很好地满足需求.结合规则过滤技术,分析了基于文本内容的贝叶斯分类器实现的关键技术与方法,并给出核心过滤算法在邮件分类中的实现具体方法及过程,进而完成垃圾邮件的判别.为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,提出相应的改进措施,使用最小风险贝叶斯决策减小误判率,对分类系统经训练部分进行自适应调整,最后给出基于规则与内容的双重防范机制的邮件过滤模型及基于该框架的邮件判别流程.  相似文献   

7.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

8.
优化目标决定了贝叶斯网络分类器的分类性能.文章围绕生成函数和判别函数等两类典型的优化目标,对比分析了贝叶斯网络在不同学习目标下的学习方法,应用UCI数据集,通过实验对比了训练样本数量的变化对贝叶斯网络分类器性能的影响,分析了贝叶斯网络分类器的目标函数与分类性能的关系.数据实验结果表明:冗余数据对判别贝叶斯网络过拟合的影响大于生成贝叶斯网络,“最优”贝叶斯网络分类器并不一定具有最大的联合似然值或者条件似然值;为了提高学习效率和分类性能,可在训练判别贝叶斯网络的过程中采用主动样本选择策略,并且以生成函数和判别函数的权衡值作为贝叶斯网络分类器的优化目标.  相似文献   

9.
传统推荐模型存在“数据稀疏”问题,且异构特征间深层语义未有效挖掘。提出相关性视觉对抗贝叶斯个性化排序(Correlation Visual Adversarial Bayesian Personalized Ranking, CVABPR)推荐模型。首先,基于原始MovieLens数据集,在IMDB爬取对应电影海报图像,构建全新多模态数据集:MovieLens-100k-WMI和MovieLens-1M-WMI。其次,基于SENet模型提取一组具有互补性的异构图像特征,准确描述电影海报图像。然后,改进聚类典型相关性分析模型,深入挖掘异构SENet特征间的聚类典型相关性。基于该相关性优化视觉贝叶斯个性化排序模型,以精准刻画待推荐项目。最后,在模型中主动加入扰动因子,通过对抗学习来增强视觉特征鲁棒性,使推荐模型更稳定,从而生成高质量个性化推荐结果。为验证CVABPR模型,在新的多模态数据集上完成全部实验。实验结果表明:CVABPR模型在这两个数据集上都有效。在MovieLens-100k-WMI数据集上,其推荐的均值平均精度(Mean Average Precision, MAP)指标较最强基线提升3.802%;在MovieLens-1M-WMI数据集上,其推荐的MAP指标较最强基线提升4.609%。CVABPR模型优于主流基线。消融分析实验表明:相比改进的聚类典型相关性分析模型,对抗学习在推荐中发挥更重要作用。此外,在数据稀疏度更高的MovieLens-1M-WMI数据集上,CVABPR模型能获得更大幅度性能提升,“数据稀疏”问题得到有效缓解,且异构特征间的深层语义也得以充分利用,CVABPR模型具备较高应用价值。  相似文献   

10.
伴随着电子邮件的广泛使用,垃圾邮件日益泛滥,严重影响了人们正常的工作、学习和生活。如今新型的垃圾邮件变化多端,使得传统的、单一的垃圾邮件过滤方法对新型垃圾邮件已经无能为力。针对这一难题,介绍了当前已经应用于垃圾邮件过滤领域主流的3种垃圾邮件过滤技术。通过详细分析各种技术的优缺点,对黑白名单过滤技术、基于规则的过滤技术和贝叶斯过滤技术进行整合,从而建立了一个分层次的垃圾邮件过滤系统模型,并对该过滤系统进行了性能分析。  相似文献   

11.
设计并实现中文垃圾短信过滤器,能够较好识别不断变化的垃圾短信。以逻辑回归模型为基础,提出字节级n元文法提取短信特征,并采用TONE(Train On or Near Error)方法训练过滤器。通过实验测试,证明应用该方法实现的垃圾短信过滤效果很好。  相似文献   

12.
The paper proposes a new fuzzy SVM, called CI-FSVM(Class Imbalance Fuzzy Support Vector Machine) short for which is based on imbalanced datasets classification. By improving penalty functions, we reduce the sensitivity of the model for imbalanced datasets with “overlap”. In addition, the parameters in SVM models are optimized by the grid-parameter-search algorithm. The results show that the CI-FSVM has a better effect in imbalanced datasets classification compared with other models. It not only has a higher overall accuracy, but also improves are judgment accuracy when dealing with the minority classifications.  相似文献   

13.
电子邮件的普及给人们的生活带来极大的方便,但目前垃圾邮件的泛滥严重影响了用户的正常使用。贝叶斯算法因简单在英文邮件过滤中取得了良好的过滤效果,分析了贝叶斯算法的原理及其在垃圾邮件过滤中的应用,给出垃圾邮件过滤的整个过滤流程,设计并实现了一种语言无关的垃圾邮件过滤系统。  相似文献   

14.
为了判断一个给定的DNA序列片段是基因序列还是间区序列,基于语言学方法提取了DNA序列特征,通过支持向量机(SVM)训练方法,实现了对人类22号染色体的DNA序列中的基因和基因间区序列的分类.在不依赖于任何生物领域知识的前提下,该方法能得到85%以上的分类精度.相对于SVM分类方法,虽然二元Logistic回归(BLR)方法也能达到较高的分类精度,但在训练时间上SVM方法远优于BLR方法.  相似文献   

15.
从英语生成的动态异质性这一视角 ,对比英、汉语言生成模式 ,帮助学生建构英语的动态生成模式 ,从而生成地道的英语。  相似文献   

16.
Category-based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks: 1) The problem of word clustering. It is hard to find a suitable clustering method with good performance and less computation. 2) Class-based method always loses the prediction ability to adapt the text in different domains. In order to solve above problems, a definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance, and the perplexity is reduced from 283 to 218. At the same time, an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability. The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora, and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.  相似文献   

17.
基于朴素贝叶斯和支持向量机的短信智能分析系统设计   总被引:2,自引:0,他引:2  
为了解决垃圾短信的骚扰问题,提出了一种基于朴素贝叶斯和支持向量机的短信智能分析系统架构。考虑朴素贝叶斯的快速统计分类及支持向量机的增量训练等特点,将其应用于垃圾短信过滤中,并对关键词库进行及时更新,使得系统具有更好的自适应性。对某移动通信运营商提供的12万条短信进行反复实验,结果表明:该方法可有效地解决当前垃圾短信过滤系统中存在的问题。  相似文献   

18.
Most human deaths are caused by heart diseases. Such diseases cannot be efficiently detected for the lack of specialized knowledge and experience. Data science is important in healthcare sector for the role it plays in bulk data processing. Machine learning (ML) also plays a significant part in disease prediction and decision-making in medical care industry. This study reviews and evaluates the ML approaches applied in heart disease detection. The primary goal is to find mathematically effective ML algorithm to predict heart diseases more accurately. Various ML approaches including Logistic Regression, Support Vector Machine (SVM), k-Nearest Neighbor (k-NN), t-Distributed Stochastic Neighbor Embedding (t-SNE), Nave Bayes, and Random Forest were utilized to process heart disease dataset and extract the unknown patterns of heart disease detection. An analysis was conducted on their performance to examine the effecacy and efficiency. The results show that Random Forest out-performed other ML algorithms with an accuracy of 97%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号