首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。  相似文献   

2.
入侵检测系统在最大化计算机安全性的同时,着手减小其代价也是关键点之一.标准的分类器设计一般基于精度,在入侵检测等实际应用问题中,不同的类别对应的错分代价也不同,在此类问题中直接使用标准分类方法就无法取得良好的分类和预测效果.代价敏感算法通过改变代价矩阵,可使高代价样本的错分率得到有效的控制,并尽量减少总体错分代价.本文时代价敏感支持向量机在入侵检测中的应用进行了研究,并用KDDCUP99标准数据集对文中算法进行了测试评估.  相似文献   

3.
数据挖掘取样方法研究   总被引:10,自引:0,他引:10  
取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性,综述了取...  相似文献   

4.
取样方法这种有效的近似技术在现在的数据挖掘研究中能够最大限度的减小数据集的处理规模,将大规模数据集及数据流数据上以数据挖掘算法进行处理。取样法具有通用有效的特点。本文化通过对数据挖掘领域的取样方法分类以及影响取样方法选择的因素等问题进行分析研究,着重探讨了数据挖掘领域的代表性取样方选用以及应用发展。  相似文献   

5.
特征选择是机器学习和数据挖据中一个重要的预处理步骤,而类别不均衡数据的特征选择是机器学习和模式识别中的一个热点研究问题。多数传统的特征选择分类算法追求高精度,并假设数据没有误分类代价或者有同样的代价。在现实应用中,不同的误分类往往会产生不同的误分类代价。为了得到最小误分类代价下的特征子集,本文提出一种基于样本邻域保持的代价敏感特征选择算法。该算法的核心思想是把样本邻域引入现有的代价敏感特征选择框架。在8个真实数据集上的实验结果表明了该算法的优越性。  相似文献   

6.
杨杰  燕雪峰  张德平 《计算机科学》2017,44(8):176-180, 206
Boosting重抽样是常用的扩充小样本数据集的方法,首先针对抽样过程中存在的维数灾难现象,提出随机属性子集选择方法以进行降维处理;进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点,在属性选择过程中添加代价敏感算法。以多个基本k-NN预测器为弱学习器,以代价最小为属性删除原则,得到当前抽样集的k值与属性子集的预测器集合,采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值,由所有预测器集合构成自适应的集成k-NN强学习器并建立软件缺陷预测模型。基于NASA数据集的实验结果表明,在小样本情况下,基于Boosting的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低,误报率有一定程度增加,整体性能优于原来的Boosting集成预测方法。  相似文献   

7.
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降。针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法。首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率。选取6个不同的数据集,用于验证所提方法的有效性。实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能。  相似文献   

8.
代价敏感属性选择问题的目的是通过权衡测试代价和误分类代价,得到一个具有最小总代价的属性子集。目前,多数代价敏感属性选择方法只考虑误分类代价固定不变的情况,不能较好地解决类分布不均衡等问题。而在大规模数据集上,算法效率不理想也是代价敏感属性选择的主要问题之一。针对这些问题,以总代价最小为目标,设计了一种新的动态误分类代价机制。结合分治思想,根据数据集规模按列自适应拆分各数据集。基于动态误分类代价重新定义最小代价属性选择问题,提出了动态误分类代价下的代价敏感属性选择分治算法。通过实验表明,该算法能在提高效率的同时获得最优误分类代价,从而保证所得属性子集的总代价最小。  相似文献   

9.
集成学习算法的差异性及性能比较   总被引:1,自引:0,他引:1       下载免费PDF全文
从差异性出发,研究了基于特征集技术(通过一定的策略选取不同特征集以组成训练集)与数据技术(通过取样技术选取不同的训练集)的集成学习算法,分析了两种集成学习算法产生差异性的方法。针对决策树与神经网络模型,在标准数据集中对集成学习算法的性能进行实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素。从总体性能考虑,基于数据的集成学习算法在大多数数据集上优于基于特征集的集成学习算法。  相似文献   

10.
基于minmaxKKT条件的三维重构方法   总被引:1,自引:0,他引:1  
周果清  王庆 《自动化学报》2012,38(9):1439-1444
机器视觉中, 三维重构是一个重要问题. 基于2范数的最小二乘法速度较快, 但因误差代价函数非凸, 理论上无法获得全局最优解, 即使通过分支限界等方法, 往往也只能获得局部最优. 无穷范数表示的误差代价函数理论上可以获得全局最优, 但是计算速度很慢. 本文提出一种基于最小最大库恩塔克条件(minmaxKKT)的三维重构方法. 该方法利用minmaxKKT条件对基于2范数的三维重构结果进行全局最优判别, 对陷入局部最优的结果运用混合最速下降法进行全局寻优. 该方法可以获得全局最优, 相对于无穷范数算法具有更高的计算效率. 对标准数据集和真实数据的实验结果证明了本文算法的可行性和优点.  相似文献   

11.
Location estimation or localization is one of the key components in IoT applications such as remote health monitoring and smart homes. Amongst device-free localization technologies, passive infrared (PIR) sensors are one of the promising options due to their low cost, low energy consumption, and good accuracy. However, most of the existing systems are complexly designed and difficult to deploy in real life, in addition, there is no public dataset available for researchers to benchmark their proposed localization and tracking methods. In this paper, we propose a system and a dataset collected from our PIR system consisting of commercial-of-the-shelf (COTS) sensors without any modification. Our dataset includes profile data of 36 classes that have over 1,000 samples of different walking directions and test data consisting of multiple scenarios with a sequence length of over 2,000 timesteps. To evaluate our system and dataset, we implement various deep learning methods such as CNN, RNN, and CNN–RNN. Our results prove the applicability and feasibility of our system and illustrate the viability of deep learning methods for PIR-based localization and tracking. We also show that our dataset can be converted for coordinate estimation so that deep learning methods and particle filter approaches can be applied to estimate coordinates. As a result, the best performer achieves a distance error of 0.25 m.  相似文献   

12.
殷俊  王海燕  潘显萌 《计算机科学》2016,43(Z11):407-410
网络安全审计是网络管理的重要任务,是保障网络安全、稳定运行的重要方法。针对网络安全审计系统部署复杂、成本较高的问题,提出一种利用DNS重定向技术进行网络安全审计的方法。通过修改网关DNS配置,重定向网络数据流,在不改变网络结构和客户端配置的情况下,即可对网络数据进行行为审计。实验结果表明,该种审计方案安装简便、成本较低,有助于小型网络管理者增强安全防范能力及提高网络管理水平。  相似文献   

13.
14.
关系抽取是信息抽取的主要任务之一,远程监督作为关系抽取中的一种有效的方法,已成功地应用于包含上千关系的大型语料库.然而,远程监督造成的错误标注会影响关系抽取的性能.为了缓解这一问题,现有的远程监督关系抽取方法选择每个实体对中一个最好的句子或通过注意力机制赋予每个句子不同的权重.但这些方法并不能完全解决错误标注的问题.本...  相似文献   

15.
This paper presents and investigates different approaches to solve a new bi-objective routing problem called the ring star problem. It consists of locating a simple cycle through a subset of nodes of a graph while optimizing two kinds of cost. The first objective is the minimization of a ring cost that is related to the length of the cycle. The second one is the minimization of an assignment cost from non-visited nodes to visited ones. In spite of its obvious bi-objective formulation, this problem has always been investigated in a single-objective way. To tackle the bi-objective ring star problem, we first investigate different stand-alone search methods. Then, we propose two cooperative strategies that combine two multi-objective metaheuristics: an elitist evolutionary algorithm and a population-based local search. We apply these new hybrid approaches to well-known benchmark test instances and demonstrate their effectiveness in comparison to non-hybrid algorithms and to state-of-the-art methods.  相似文献   

16.
李明  杨艳屏  占惠融 《自动化学报》2010,36(12):1655-1660
基于图的算法已经成为半监督学习中的一种流行方法, 该方法把数据定义为图的节点, 用图的边表示数据之间的关系, 在各种数据分布情况下都具有很高的分类准确度. 然而图方法的计算复杂度比较高, 当图的规模比较大时, 计算所需要的时间和存储都非常大, 这在一定程度上限制了图方法的使用. 因此, 如何控制图的大小是基于图的半监督学习算法中的一个重要问题. 本文提出了一种基于密度估计的快速聚类方法, 可以在局部范围对数据点进行聚类, 以聚类形成的子集作为构图的节点, 从而大大降低了图的复杂度. 新的聚类方法计算量较小, 通过推导得到的距离函数能较好地保持原有数据分布. 实验结果表明, 通过局部聚类后构建的小图在分类效果上与在原图上的结果相当, 同时在计算速度上有极大的提高.  相似文献   

17.
Lightweight material capture methods require a material prior, defining the subspace of plausible textures within the large space of unconstrained texel grids. Previous work has either used deep neural networks (trained on large synthetic material datasets) or procedural node graphs (constructed by expert artists) as such priors. In this paper, we propose a semi-procedural differentiable material prior that represents materials as a set of (typically procedural) grayscale noises and patterns that are processed by a sequence of lightweight learnable convolutional filter operations. We demonstrate that the restricted structure of this architecture acts as an inductive bias on the space of material appearances, allowing us to optimize the weights of the convolutions per-material, with no need for pre-training on a large dataset. Combined with a differentiable rendering step and a perceptual loss, we enable single-image tileable material capture comparable with state of the art. Our approach does not target the pixel-perfect recovery of the material, but rather uses noises and patterns as input to match the target appearance. To achieve this, it does not require complex procedural graphs, and has a much lower complexity, computational cost and storage cost. We also enable control over the results, through changing the provided patterns and using guide maps to push the material properties towards a user-driven objective.  相似文献   

18.
目的 双目视觉是目标距离估计问题的一个很好的解决方案。现有的双目目标距离估计方法存在估计精度较低或数据准备较繁琐的问题,为此需要一个可以兼顾精度和数据准备便利性的双目目标距离估计算法。方法 提出一个基于R-CNN(region convolutional neural network)结构的网络,该网络可以实现同时进行目标检测与目标距离估计。双目图像输入网络后,通过主干网络提取特征,通过双目候选框提取网络以同时得到左右图像中相同目标的包围框,将成对的目标框内的局部特征输入目标视差估计分支以估计目标的距离。为了同时得到左右图像中相同目标的包围框,使用双目候选框提取网络代替原有的候选框提取网络,并提出了双目包围框分支以同时进行双目包围框的回归;为了提升视差估计的精度,借鉴双目视差图估计网络的结构,提出了一个基于组相关和3维卷积的视差估计分支。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集上进行验证实验,与同类算法比较,本文算法平均相对误差值约为3.2%,远小于基于双目视差图估计算法(11.3%),与基于3维目标检测的算法接近(约为3.9%)。另外,提出的视差估计分支改进对精度有明显的提升效果,平均相对误差值从5.1%下降到3.2%。通过在另外采集并标注的行人监控数据集上进行类似实验,实验结果平均相对误差值约为4.6%,表明本文方法可以有效应用于监控场景。结论 提出的双目目标距离估计网络结合了目标检测与双目视差估计的优势,具有较高的精度。该网络可以有效运用于车载相机及监控场景,并有希望运用于其他安装有双目相机的场景。  相似文献   

19.
In this paper, we intensively study the behavior of three part-based methods for handwritten digit recognition. The principle of the proposed methods is to represent a handwritten digit image as a set of parts and recognize the image by aggregating the recognition results of individual parts. Since part-based methods do not rely on the global structure of a character, they are expected to be more robust against various deformations which may damage the global structure. The proposed three methods are based on the same principle but different in their details, for example, the way of aggregating the individual results. Thus, those methods have different performances. Experimental results show that even the simplest part-based method can achieve recognition rate as high as 98.42% while the improved one achieved 99.15%, which is comparable or even higher than some state-of-the-art method. This result is important because it reveals that characters can be recognized without their global structure. The results also show that the part-based method has robustness against deformations which usually appear in handwriting.  相似文献   

20.
Appropriate comments of code snippets provide insight for code functionality, which are helpful for program comprehension. However, due to the great cost of authoring with the comments, many code projects do not contain adequate comments. Automatic comment generation techniques have been proposed to generate comments from pieces of code in order to alleviate the human efforts in annotating the code. Most existing approaches attempt to exploit certain correlations (usually manually given) between code and generated comments, which could be easily violated if coding patterns change and hence the performance of comment generation declines. In addition, recent approaches ignore exploiting the code constructs and leveraging the code snippets like plain text. Furthermore, previous datasets are also too small to validate the methods and show their advantage. In this paper, we propose a new attention mechanism called CodeAttention to translate code to comments, which is able to utilize the code constructs, such as critical statements, symbols and keywords. By focusing on these specific points, CodeAttention could understand the semantic meanings of code better than previous methods. To verify our approach in wider coding patterns, we build a large dataset from open projects in GitHub. Experimental results in this large dataset demonstrate that the proposed method has better performance over existing approaches in both objective and subjective evaluation. We also perform ablation studies to determine effects of different parts in CodeAttention.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号