首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
    
Natural Language Processing (NLP) for the Arabic language has gained much significance in recent years. The most commonly-utilized NLP task is the ‘Text Classification’ process. Its main intention is to apply the Machine Learning (ML) approaches for automatically classifying the textual files into one or more pre-defined categories. In ML approaches, the first and foremost crucial step is identifying an appropriate large dataset to test and train the method. One of the trending ML techniques, i.e., Deep Learning (DL) technique needs huge volumes of different types of datasets for training to yield the best outcomes. The current study designs a new Dice Optimization with a Deep Hybrid Boltzmann Machine-based Arabic Corpus Classification (DODHBM-ACC) model in this background. The presented DODHBM-ACC model primarily relies upon different stages of pre-processing and the word2vec word embedding process. For Arabic text classification, the DHBM technique is utilized. This technique is a hybrid version of the Deep Boltzmann Machine (DBM) and Deep Belief Network (DBN). It has the advantage of learning the decisive intention of the classification process. To adjust the hyperparameters of the DHBM technique, the Dice Optimization Algorithm (DOA) is exploited in this study. The experimental analysis was conducted to establish the superior performance of the proposed DODHBM-ACC model. The outcomes inferred the better performance of the proposed DODHBM-ACC model over other recent approaches.  相似文献   

2.
分类问题,尤其是文本自动分类一直是机器学习与数据挖掘研究中的研究热点与核心技术,其中如朴素贝叶斯、KNN等近年来得到了广泛的关注和快速的发展。文中在统计学理论的基础上给出了一种基于支持向量机方法的文本分类算法,并设计出了相应的垃圾邮件过滤系统。实验证明与朴素贝叶斯方法相比,该算法极大地提高了分类准确率和查全率,具有应用推广的价值。  相似文献   

3.
分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。设计了一种基于贝叶斯概率推理方法的垃圾邮件过滤系统。它用概率测试的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题。作为互联网的第一大应用,电子邮件一直受到广大网民的青睐,但近些年来,垃圾邮件问题日益严重。将上述研究的结果应用到目前互联网上垃圾邮件的过滤工作中,实验证明了方法的有效性。  相似文献   

4.
基于结构特征的nBayes双层过滤模型   总被引:7,自引:0,他引:7  
王斌  许洪波  王申 《计算机应用》2006,26(1):191-0194
由于算法的简单和效果的出色,Nave Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Nave Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Nave Bayes分类器分开训练和学习。实验分析表明,Nave Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。  相似文献   

5.
基于文本区域特征的图像型垃圾邮件过滤算法   总被引:4,自引:0,他引:4  
垃圾邮件图像中通常含有大量文本区域,且这些区域常含有较多区分能力强的特征。提出一种基于图像中文本区域特征的垃圾邮件图像识别算法。首先提取出图像中文本区域的特征,包括:文本区域数量和面积、色饱和度、文字数量和颜色数量,以及图像的一些属性特征如图像面积等;然后利用支持向量机分类算法来识别垃圾邮件图像。实验表明,对于真实的邮件图像集,算法能够识别出98.5%的垃圾邮件图像,且正确率超过98%。  相似文献   

6.
优化器是提高深度学习模型性能的关键因素,通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT等大语言模型成为自然语言处理领域研究焦点,以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生,其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线,分析其原理及优劣。将优化器应用到Transformer架构中,选取法-英翻译任务作为评估基准,通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明,自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时,展望优化器的发展方向并给出在具体任务上的应用场景。  相似文献   

7.
短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%.  相似文献   

8.
传统的垃圾短信过滤方案,以垃圾短信中出现的敏感词作为判断的依据,却忽略了正常短信中出现的词对分类的贡献,并且由于短信用语的灵活性,特征提取难度较大.提出了一种基于svm算法对垃圾短信进行监控和过滤的方案,该方案根据短信内容、短信长度等特征,对短信文本进行向量空间的表示.通过机器学习的方式,对垃圾短信进行判断,过滤.相比传统方法而言,本系统在过滤准确度和效率两方面均获得大幅度提升.  相似文献   

9.
    
End-user feedback in social media platforms, particularly in the app stores, is increasing exponentially with each passing day. Software researchers and vendors started to mine end-user feedback by proposing text analytics methods and tools to extract useful information for software evolution and maintenance. In addition, research shows that positive feedback and high-star app ratings attract more users and increase downloads. However, it emerged in the fake review market, where software vendors started incorporating fake reviews against their corresponding applications to improve overall software ratings. For this purpose, we conducted an exploratory study to understand how end-users register and write fake reviews in the Google Play Store. We curated a research data set containing 68,000 end-user comments from the Google Play Store and a fake review generator, that is, the Testimonial generator (TG). Its purpose is to understand fake reviews on these platforms and identify the common patterns potential end-users and professionals use to report fake reviews by critically analyzing the end-user feedback. We conducted a detailed survey at the University of Science and Technology Bannu, Pakistan, to identify the intelligence and accuracy of crowd-users in manually identifying fake reviews. In addition, we developed a ground truth to be compared with the results obtained from the automated machine and deep learning (M&DL) classifier experiment. In the survey, 512 end-users participated and recorded their responses in identifying fake reviews. Finally, various M&DL classifiers are employed to classify and identify end-user reviews into real and fake to automate the process. Unlike humans, the M&DL classifiers performed well in automatically classifying reviews into real and fake by obtaining much higher accuracy, precision, recall, and f-measures. The accuracy of manually identifying fake reviews by the crowd-users is 44.4%. In contrast, the M&DL classifiers obtained an average accuracy of 96%. The experimental results obtained with various M&DL classifiers are encouraging. It is the first step towards identifying fake reviews in the app store by studying its implications in software and requirements engineering.  相似文献   

10.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。  相似文献   

11.
    
Biomedical image processing is widely utilized for disease detection and classification of biomedical images. Tongue color image analysis is an effective and non-invasive tool for carrying out secondary detection at anytime and anywhere. For removing the qualitative aspect, tongue images are quantitatively inspected, proposing a novel disease classification model in an automated way is preferable. This article introduces a novel political optimizer with deep learning enabled tongue color image analysis (PODL-TCIA) technique. The presented PODL-TCIA model purposes to detect the occurrence of the disease by examining the color of the tongue. To attain this, the PODL-TCIA model initially performs image pre-processing to enhance medical image quality. Followed by, Inception with ResNet-v2 model is employed for feature extraction. Besides, political optimizer (PO) with twin support vector machine (TSVM) model is exploited for image classification process, shows the novelty of the work. The design of PO algorithm assists in the optimal parameter selection of the TSVM model. For ensuring the enhanced outcomes of the PODL-TCIA model, a wide-ranging experimental analysis was applied and the outcomes reported the betterment of the PODL-TCIA model over the recent approaches.  相似文献   

12.
多个相关任务同时学习可能比各个任务单独学习具有更好的泛化能力,这是多任务学习(multitask learning)模式的出发点。受其启发,研究并开发了一种多层邮件过滤系统。首先为各用户建立基本分类器,利用EM算法估计出基本分类器之间的相关系数,最终得到该用户的邮件过滤判别函数。实验结果表明,该系统对中英文语料都是可靠和有效的,并在样例较少时就具有较好的过滤性能。该过滤系统的优劣最终还取决于相关系数先验概率的参数取值,以及所选择的基本分类器。  相似文献   

13.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。  相似文献   

14.
目前各种基于规则的分类方法在电子邮件过滤中起到了良好的效果,在邮件过滤器的训练中,训练集中会存在部分邮件具有邮件类别模糊的现象,如何将训练集中的此类类别界限模糊的邮件提取出来将会对邮件的分类效果有明显提高的作用。提出一种基于聚类的过滤方法,根据界限模糊邮件数据之间的共性特征,对邮件训练集进行聚类。实验表明,与单纯的进行基于规则的分类算法相比,这种方法在各项评价指标上具有优越性。  相似文献   

15.
从CNN、RNN、CNN-RNN、GCN及其他深度学习方法五方面,全面分析了深度学习在短文本分类应用中的研究现状,比较了各自的优缺点,总结了常用的标签数据集。结果表明:目前深度学习在短文本分类中的应用研究主要集中在高效算法改进以及文本信息拓展两方面;对模型检验中构建标签数据集的研究也处于起步阶段,大多是针对影评、商品评论、新闻等特定领域的,还需不断完善;基于深度学习的短文本分类方法研究,今后在理论研究方面将重点关注算法改进、信息拓展以及二者的相互融合,在实践中探索某些分类效果较好的特定领域应用。  相似文献   

16.
近年来,深度学习技术在充足的计算能力之下得到飞速的发展.在可视化与可视分析流程中,部分需要人为参与的环节和问题,已然能够借用数据驱动的方式来替代和解决.该综述基于经典的可视化与可视分析流程,即可视化的压缩、构建、交互、评估等各个方面,审视了其中能够借助深度学习技术的部分,并对相关研究进行了详细而系统的论述,探讨深度学习技术与可视化结合带来的技术红利,深刻分析深度学习驱动的可视化未来发展的前景.  相似文献   

17.
针对密集堆放的多种类垃圾检测存在识别率低、定位不够准确和待测目标被误检、漏检问题,提出了一种融合多头自注意力机制改进YOLOX-s的垃圾检测方法。在特征提取网络嵌入SwinTransformer模块,引入基于滑窗操作的多头自注意力机制,使得网络兼顾全局特征信息和重点特征信息,减少误检现象;在预测输出网络中使用可变形卷积,对初始预测框进行精细化处理,提高定位精度;在EIoU损失的基础上引入加权系数,提出加权IoU-EIoU损失,自适应调整训练时不同阶段不同损失的关注程度,进一步加快训练网络的收敛速度。在公开204类垃圾检测数据集中进行测试,结果表明,所提改进算法的平均精度均值分别可达80.5%和92.5%,优于当前流行目标检测算法,且检测速度快,满足实时性需求。  相似文献   

18.
一种适应短文本的相关测度及其应用   总被引:3,自引:1,他引:2       下载免费PDF全文
针对博客社区和BBS论坛充斥Web垃圾信息的问题,提出相关度向量空间模型cVSM,并以此作为评论的特征,采用支持向量机分类算法自动识别垃圾评论。cVSM包括一种适合短文本的相关测度,用于衡量评论和文章的语义相关程度。在中文博客测试集和中文BBS测试集上的实验结果表明,相比纯粹使用评论文本特征的方法,应用该模型时F1至少提高6%。  相似文献   

19.
Ambiguous words refer to words that have multiple meanings such as apple,window.In text classification they are usually removed by feature reduction methods like Information Gain.Sometimes there are too many ambiguous words in the corpus,which makes throwing away all of them not a viable option,as in the case when classifying documents from the Web.In this paper we look for a method to classify Titled documents with the help of ambiguous words.Titled documents are a kind of documents that have a simple s...  相似文献   

20.
文章主要进行了接收端的垃圾邮件处理技术的对比研究,包括预处理、特征选择和分类3大步骤。其中特征选择技术包括文档频率(DF)、信息增益(IG)、优势率(ODD)等方法。文章详细介绍了其中基于粗糙集理论的特征选择方法--信息增益(knowledge gain),并用实验验证了该方法在正确率等指标中的突出表现。主流分类器算法包括k近邻、贝叶斯、SVM等,其中详细展示了线性分类器在垃圾邮件分类算法实验中的突出表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号