共查询到19条相似文献,搜索用时 93 毫秒
1.
对数据进行分类处理是当前的研究热点,采用传统机器学习算法对英语文本进行分类有文本特征不明显、训练周期长、词序丢失等诸多缺点.针对传统机器学习算法的不足,文中对Word2vec算法和TF-IDF算法进行融合,生成改进的TF-Word算法.同时应用卷积神经网络组成混合神经网络模型实现文本分类,该方法可以有效提高传统文本分类... 相似文献
2.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。 相似文献
3.
基于Web的文本挖掘研究 总被引:4,自引:6,他引:4
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。 相似文献
4.
现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现频率.其中,共现频率在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验分析,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法. 相似文献
5.
基于改进遗传算法的Web文本挖掘系统 总被引:1,自引:1,他引:0
余燕芳 《微电子学与计算机》2010,27(4)
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法很难适用于大规模的文本数据集.为此,提出了一种基于改进遗传算法的文本挖掘系统.提出的改进遗传算法极大地提高了文本挖掘系统的分类效率.实验结果表明,该方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快. 相似文献
6.
《现代电子技术》2018,(8):167-170
针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。 相似文献
7.
8.
兰志成 《信息技术与信息化》2022,(6):138-141
针对以往建筑安全事故报告分类研究中模型不能自动获取充足的深层语义特征的问题,提出了一种融合图神经网络(graph neural network,GNN)与长短期记忆网络(long short-term memory,LSTM)的新型文本分类方法。该方法首先基于GNN为每份事故报告构建一张图;接着,使用LSTM将图中节点信息相互传递并更新节点表示;随后,将词节点的表示通过注意力机制聚合为更为丰富的深层文档特征表示;最后,采用分类器实现建筑安全事故报告分类任务。应用于建筑安全事故文本数据集上的实验结果表明,所提方法性能优于同类基准系统。 相似文献
9.
10.
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。 相似文献
11.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
12.
彭其华 《微电子学与计算机》2013,(10)
研究基于关联度挖掘的海量网络文本挖掘方法;随着计算机和网络技术的快速发展,网络上的文本呈现海量增长的趋势,传统的网络文本挖掘方法采用基于特征提取的方法实现,能够实现小数据量下的文本挖掘,但是在信息量的快速增长下,传统方法已经不能适应;提出一种基于关联度挖掘的海量网络文本挖掘方法,首先采用特征提取的方法对海量文本进行初步的分类和特征识别,然后采用关联度挖掘的方法对各个文本特征之间的关联度进行计算处理,根据关联度的大小最终实现文本挖掘,由于关联度可以很好的体现特征文本之间的相互关系;最后采用一组随机的网络热门词汇进行测试实验,结果显示,算法能够很好适应海量文本下的挖掘实现,具有很好的应用价值。 相似文献
13.
吴新玲 《微电子学与计算机》2011,28(11)
提出了一种基于类的混合概率分类方法.该方法为每一类文本独立选取能代表其本质特性的主要特征,即不同类型的文本由不同的主要特征表示,并基于各类的主要特征分别为每类文本建立相应的概率分布模型,然后再根据朴素贝叶斯方法对未知类型的文本进行分类.实验结果表明:该方法简单有效且易于实现. 相似文献
14.
基于BP神经网络的雷达点迹分类方法 总被引:1,自引:0,他引:1
提出了一种解决复杂电磁环境下目标检测后仍包含杂波的基于反向传播(BP)神经网络的雷达点迹分类方法。该方法可以在目标检测后进一步区分目标点和杂波点,提高目标跟踪的质量。同时,对BP神经网络进行了训练,并与K最近邻域法和支持向量机作了对比,发现该方法的分类精度可达87. 3%,较后两种方法精度分别提升19. 6%和7. 6%。实验结果表明:基于BP神经网络的雷达点迹分类方法有效。 相似文献
15.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%. 相似文献
16.
17.
传统的去雾霾方法会导致天空、白云和明亮区域内的颜色失真.为了解决以上问题,提出了一种基于多尺度卷积神经网络和分类统计的去除图像雾霾的方法.首先用多尺度卷积神经网络估计图像的透射率,其次对所估计的透射率进行分类统计以确定在暗通道内天空、白云和明亮区域的像素值,最后通过低通高斯滤波器平滑图像场景的辐射度,得到恢复的无雾霾图像.实验结果表明,采用提出的方法对图像去雾霾后明亮区域内的颜色不会失真,且保留了图像的自然外观,对合成图像和真实图像均有较好的去雾霾效果. 相似文献
18.
深度学习就是机器学习研究的过程,主要通过模拟人脑分析学习的过程对数据进行分析。目前,深度学习技术已经在计算机视觉、语音识别、自然语言处理等领域获得了较大发展,并且随着该技术的不断发展,为网络流量分类和异常检测带来了新的发展方向。移动智能手机与大家的生活息息相关,但是其存在的安全问题也日益凸显。针对传统机器学习算法对于流量分类需要人工提取特征、计算量大的问题,提出了基于卷积神经网络模型的应用程序流量分类算法。首先,将网络流量数据集进行数据预处理,去除无关数据字段,并使数据满足卷积神经网络的输入特性。其次,设计了一种新的卷积神经网络模型,从网络结构、超参数空间以及参数优化方面入手,构造了最优分类模型。该模型通过卷积层自主学习数据特征,解决了传统基于机器学习的流量分类算法中的特征选择问题。最后,通过CICAndmal2017网络公开数据集进行模型测试,相比于传统的机器学习流量分类模型,设计的卷积神经网络模型的查准率和查全率分别提高了2.93%和11.87%,同时在类精度、召回率以及F1分数方面都有较好的提升。 相似文献
19.
在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件。本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术。首先用文本流的某个典型时段采样得到候选短语,构建AC-Trie前缀树。然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法。此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机。新浪微博数据集上的实验验证了本文方法的有效性(准确率达89%)和高效性(时空开销仅为基准算法的2%)。 相似文献