首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
实施有效地网络管理,首先要对网络流量按照应用类型不同进行准确分类.由于目前传统的基于端口号匹配和特征字段分析的流量分类方法不能很好的满足网管需要的现状,因此,针对这两种方法在应用中存在的问题进行了分析,并与目前研究较多的基于流统计特征的机器学习分类方法进行比较.研究后结果表明:该方法包括有流样本的形成、特征选择过程和机器学习分类过程3个关键步骤,可通过网络流量的统计特征,采用机器学习方法进行准确分类.  相似文献   

2.
特征选择是机器学习和模式识别等领域的重要问题之一.从特征相关性和冗余性的出发,分析了特征相关性的大小与分类能力之间的联系,并利用相关系数对相关特征和冗余特征进行预选取,然后使用顺序前向搜索方法作进一步的降维处理,得到了一种基于相关性的最优特征子集选择方法.实验结果表明,该方法是一种有效的特征选择方法.  相似文献   

3.
文本分类中的特征选择方法   总被引:5,自引:0,他引:5  
文本分类是数据挖掘的一个重要的研究方向.用机器学习方法进行特征选择对文本分类起关键作用。结合的工作,本文从文本的特征表示、特征选择等方而加以阐述.综合了已有和最新的各种基于评估函数的特征选择的方法,评价了它们的优缺点和适用范围。  相似文献   

4.
将一种新的特征选择算法(F-sco re)与多种机器学习算法相结合用于多分类问题中.使用十折交叉验证对比模型的分类效果,利用分类误差验证该方法的鲁棒性.实验结果表明,文中使用的新的基于F-score的特征选择方法与传统机器学习算法相结合具有很好的性能,能够使用比原始数据集更少特征并产生良好分类结果,尤其在与迭代随机森林方法相结合的情况下,能够显著提高模型分类精度.  相似文献   

5.
特征选择是目前机器学习领域的研究热点之一,特征选择结果的好坏直接影响着分类器的分类精度和泛化性能.首先分析了特征选择算法的框架;其次分析了支持向量机用于特征选择的意义;然后对基于支持向量机的特征选择算法进行了分析和总结;最后从算法实用性角度出发,面向网络数据,探讨基于支持向量机的特征选择算法研究思路.  相似文献   

6.
在储粮过程中,粮食害虫的监控至关重要.常见粮虫的检测方法主要有人工检测、声音检测、传统机器学习图像处理以及深度学习图像处理等.传统机器学习图像处理检测粮虫的步骤有图像预处理、特征提取及特征分类.深度学习技术包括图像分类和目标检测两大技术,详细介绍了粮虫检测应用的两阶段和单阶段的目标检测算法.研究了使用图像检测技术进行粮...  相似文献   

7.
对机器学习替代DFT能量计算方法加速CALYPSO结构预测进行研究,选择5种机器学习方法评估其预测硼团簇总能量时的性能.使用库伦矩阵把原始数据表征为结构信息矩阵,提取矩阵特征值向量作为算法输入输出来训练模型;采用相同数据集评估算法,并探索影响算法性能的其他因素.提出基于势能面特征的相似性判断方法,建立置信度模型对性能最...  相似文献   

8.
现有的抄袭检测模型主要是基于启发式的源检索查询生成方法,没有根据抄袭检测任务本身进行建模.文中设计实现了一个基于统计机器学习方法的实验报告抄袭检测系统,该系统使用基于逻辑回归模型从可疑文本片段对中提取词法特征、语法特征、语义特征和结构特征,并通过自动获得的抄袭语料进行不断训练和模型更新.实践证明,通过基于统计机器学习的...  相似文献   

9.
网络流量分类是实现网络管理的重要技术之一,但是单一的基于DPI或是机器学习的分类方法分类精确度低.提出了一种基于DPI和机器学习相结合的网络流量分类方法.该方法采用DPI检测已知特征的网络流量,利用机器学习方法辅助分析未知特征以及加密的网络流.实验表明该方法能够提高网络流量分类的精确度.  相似文献   

10.
新型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集的大小,对3种算法的效率和准确率进行测试.对比分析结果发现,随机森林算法运行的时间和数据量的大小基本呈线性关系,效率较高,且准确率稳定在86%以上,表现较好.  相似文献   

11.
已有的虚假评论识别方法主要采用启发式策略或简单特征建模,针对这些方法的不足,提出使用机器学习方法识别虚假评论。首先整合计算语言学与心理语言学的知识对评论文本进行建模,使用全监督学习算法来评价不同特征建模的性能,选出最好的特征组合。为了提高识别性能,设计两种半监督学习算法充分利用大量的未标注文本。实验结果证实所提算法超过当前的基准。  相似文献   

12.
学业导师制是实施和完善学分制的一种辅助制度,可以有效地提高学生的综合素质、创新精神和实践能力。为了量化地分析引入学业导师制度对学生课程成绩的影响程度,基于传统的机器学习模型,提出一种基于多元线性回归模型的机器学习评价方法。该方法主要分为数据的预处理、数据的特征筛选、模型的训练、交叉验证以及成绩预测等5个阶段。最后,根据学生的成绩数据进行实验分析,对比学业导师制实施前后学生成绩的变化情况,验证了学业导师制能够有效提升专业课程的及格率和优良率。  相似文献   

13.
为了提高不同工况下的轴承故障诊断准确率,提出了一种基于特征筛选和集成学习的轴承故障诊断方法。考虑到特征向量复杂冗余的问题,结合特征有效性和最大均值差异提出了新的特征评分函数,并在此基础上进一步考虑特征关联度和特征维度,筛选出有利于变工况故障诊断的特征子集。针对单一机器学习模型故障诊断准确率不高的问题,将AdaBoost和Stacking算法相结合构造集成学习故障诊断模型。实验结果表明:筛选出的特征子集在相同分类器下拥有更高的故障诊断准确率;集成学习模型相较于单一模型有更高的故障诊断准确率和鲁棒性。  相似文献   

14.
中国山区多、地形复杂,构造发育、地质灾害隐患分布广泛.滑坡作为山区最具灾难性的地质灾害之一,严重威胁着人民群众的生命及财产安全.构建滑坡易发性模型能够量化滑坡发生的可能性,对制定防灾措施、减少潜在风险具有重要作用.由于经验驱动模型难以量化,且往往依赖主观判断,近年来,滑坡易发性模型的精度与准确度在从经验驱动和统计理论模...  相似文献   

15.
基于成对约束的特征选择算法通过度量单个特征的重要性得到一个特征序列,但由单个重要特征构成的特征子集未必是最有效的.为此,提出了一种基于成对约束的特征选择改进算法,该算法采用对特征子集进行度量的策略,逐步选择使新的特征子集最有效的特征,从而得到一个有效的特征序列.实验表明新提出的算法是有效可行的.  相似文献   

16.
标记分布学习中示例由多个不同重要程度的标记共同标注,而在已有的标记分布学习算法中,大部分均在完备数据集下进行,未考虑数据噪声干扰。针对这一问题,结合自编码器的降噪特性和核极限学习机的稳定性,提出一种基于核极限学习机自编码器的标记分布学习算法。使用核极限学习机自编码器对原始特征空间映射,得到更具鲁棒性的特征表达,构造适应标记分布学习的极限学习机模型作为分类器以提升分类效率及性能。试验结果表明,本文算法较其他对比算法具有一定优势,使用假设检验方法进一步说明所提算法的有效性。  相似文献   

17.
In learning and classification problems, feature selection (FS) is critical in finding features that are both meaningful and non-redundant. Today, big data is an integral aspect of all industry sectors. All firms in any industry, such as power, finance, commerce, electronics, communications, and so on, create massive amounts of heterogeneous data that needed to be handled effectively and evaluated correctly. When it comes to big data, feature selection approaches are taken as game-changer since they can assist in minimizing the complexity of genetic data, making it simpler to study and translating it into meaningful information. To enhance classification performance, feature selection is done to remove unnecessary and redundant characteristics from the dataset. In this paper, we presented a novel Grey Wolf Approach based on Quantum leaping neighbor memeplexes which is termed QLGWONM for feature selection and reduction to achieve better classification accuracy. The paper implemented other optimization algorithms such as particle swarm optimization (PSO), slime mould algorithm (SMA), salp swarm algorithm (SSA), artificial butterfly algorithm (ABA), whale optimization (WO), crow search optimization algorithm (CSA), and Jaya models. After the implementation of these algorithms, QLGWONM outperformed other algorithms. The QLGWONM model performed well with an accuracy of 100% for Brain Tumor, CNS, Lung dataset and 97.1% for Ionosphere dataset, and 99% for NSL-KDD. Apart from these, some state-of-art comparisons were also evaluated and QLGWONM gave better results as compared with other existing algorithms.  相似文献   

18.
近年来,机器学习技术广泛用于从功能磁共振成像(functional magnetic resonance imaging,fMRI)数据中解码视觉信息、精神状态、情绪和其它感兴趣的大脑感知和认知功能。然而,由于fMRI数据样本维数高,样本量少,一般需要利用特征提取方法去除多余的预测变量和实验噪声等信息,避免机器学习模型出现过拟合问题,提高模型的预测准确率和泛化能力。介绍和讨论了常用fMRI数据有监督特征提取方法的一般原理和研究现状,并着重分析其性能和可能改进方向,最后对特征提取方法在fMRI中的研究方向进行了展望。  相似文献   

19.
针对工业控制系统流量数据存在特征冗余及深度学习模型对较小规模数据集检测能力较差的问题,提出了一种基于特征选择和时间卷积网络的工业控制系统入侵检测模型。首先,对源域数据集的异常特征和样本不平衡数据进行处理,提高源域数据集质量。其次,针对流量数据的特征冗余,利用信息增益率和主成分分析法构建IGR-PCA特征选择算法,筛选出最优特征子集实现数据降维。然后,根据工业控制系统流量数据的时间序列特性,在较大规模的源域数据集上,利用时间卷积网络(temporal convolution network,TCN)对时间序列数据优异的处理能力,构建源域时间卷积网络预训练模型。最后,在较小规模的目标域数据集上,结合迁移学习(transfer learning,TL)微调策略,获取源域样本数据的流量特征,构建目标域TCN-TL模型。利用公开的工业控制系统数据集进行实验测试,实验结果表明:流量数据经本文特征算法处理后,相较于其他方法,在降低数据维度减少计算量的同时仍具有良好的检测效果;在较大规模的源域数据集和较小规模的目标域数据集上,本文模型均取得了良好的检测效果,在目标域中利用迁移学习微调策略能够学习到源域中的知识,模型检测准确率为99.06%,在训练时间对比中,本文模型训练时间消耗更少,具有更好的泛化能力,能够更好地保护工业控制系统安全。  相似文献   

20.
传统的协同学习算法需要2个充分冗余的特征视图,而在多数情况下达不到特征充分冗余的要求,为此提出松散条件下的协同学习框架.利用支持向量机算法和长短期记忆网络(LSTM)算法分别建立基于向量空间模型的微博特征视图和基于语义相关的词向量特征视图,在2个视图上进行协同学习.针对未标注样本的选择,提出结合主动学习中的不确定策略和协同学习中的最高置信度策略的选择策略,从不同角度充分利用未标注样本中包含的信息量.实验结果表明,在中文微博情感极性研究领域,提出的选择策略与传统选择策略相比,能够提高分类器的性能,并且利用松散条件下的协同学习框架实现微博情感分析性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号