首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
为提高贝叶斯模型在实际数据中处理相关性维度时的效率、精度,并保持其可解释性,本文提出一种改进的核朴素贝叶斯模型。首先通过关联规则挖掘相关维度子集,然后对这些子集进行降维处理,利用降维后的数据构建核朴素贝叶斯模型。实际应用的结果显示,该模型减少了降维对数据的影响,在保留有效信息的同时,提高了模型的可解释性。  相似文献   

2.
时序降维是解决时间序列高维问题的关键技术。符号聚集近似表示(SAX表示法)作为一种时序降维技术,具有良好的维度约简能力与性能稳定的下界距离算法,但算法中分段数的选取需根据当前时序数据的特征而人为设定。针对这一问题,引入了滑动窗口算法与统计学方法,提出了基于二分迭代SAX的时序相似性度量算法。实验结果表明,该算法不仅解决了分段数设定困难的问题,而且降低了时序降维表示的复杂度,提高了SAX算法在多种时序数据上的分类准确性。  相似文献   

3.
针对将JavaScript代码N-gram处理后识别算法特征维度较高的问题,提出一种高效的降维方法。该方法利用TF-IDF-like模型分别计算特征在正常样本和恶意样本中的权重,基于特征权重在两类样本中的差异度进行降维。基于多个识别算法,将提出的降维方法与基于主成分分析(Principal Component Analysis,PCA)的降维方法进行比较,实验结果表明:当识别算法维度相同时,基于本文所给降维方法的识别算法在识别效果方面优于基于PCA的识别算法;当降维后识别算法的维度超过某个阈值时,随着识别算法维度的增长,本降维方法的时间开销增长速率远低于PCA方法。  相似文献   

4.
尹宝才    张超辉  胡永利    孙艳丰    王博岳   《智能系统学报》2021,16(5):963-970
随着监控摄像头的普及和数据采集技术的快速发展,多视数据呈现出规模大、维度高和多源异构的特点,使得数据存储空间大、传输慢、算法复杂度高,造成“有数据、难利用”的困境。到目前为止,国内外在多视降维方面的研究还比较少。针对这一问题,本文提出一种基于图嵌入的自适应多视降维方法。该方法在考虑视角内降维后数据重构原始高维数据的基础上,提出自适应学习相似矩阵来探索不同视角之间降维后数据的关联关系,学习各视数据的正交投影矩阵实现多视降维任务。本文在多个数据集上对降维后的多视数据进行了聚类/识别实验验证,实验结果表明基于图嵌入的自适应多视降维方法优于其他降维方法。  相似文献   

5.
文章首先给出关联规则挖掘的基本概念和基于数据立方体的维间关联规则挖掘思想,然后结合税务系统业务特点给出了适合税务系统的维间关联规则挖掘的算法,并通过实际数据进行了验证。  相似文献   

6.
陈培辉  彭强  吴志锐  郑东荣 《软件》2023,(1):62-65+88
特征降维能够有效地消除无关和冗余的数据,有效提升模型效率。然而,现有的降维技术对于一些特定领域下的高维数据并不适用。本文针对中药材的产地鉴别这一特定领域问题,提出了一种基于关键点位特征的降维技术方法,结合Matlab分类工具箱开展模式识别应用研究。通过与PCA、NMF等降维方法进行对比,实验结果表明,本文提出的降维方法能更好地提升中药材产地鉴别模型的效率和精度。  相似文献   

7.
针对目前基于k-Means算法的入侵检测技术存在对符号类型数据处理能力欠缺、误报率较高的问题,提出了一种处理混合型属性的聚类算法的入侵检测技术.该方法将对符号类型特征进行编码映射,并使用主成分分析对编码后增加的维数进行降维,从而解决了在入侵检测使用聚类分析无法对符号型数据进行处理的问题.详细地阐述了改进的具体实现方案,并通过实验验证了该方法的可行性.  相似文献   

8.
张春生  庄丽艳 《计算机应用》2013,33(10):2796-2800
Apriori关联规则数据挖掘算法只针对一类相关数据集进行数据挖掘,而现实世界中各种不同的数据集非常庞大,如何在不相关数据集间进行数据挖掘,拓展规则的数量具有挑战性。目前Apriori关联规则算法研究基本上集中在算法性能优化和针对不同数据形式的基础上,没有突破不相关数据集的界限。针对这个问题,首先给出了相关数据集、不相关数据集、相容数据集的概念,进一步给出了一种基于Apriori的不相关数据集中相容数据集间的关联规则演绎算法,给出了算法演绎规则,通过构建法证明了算法的正确性。通过实例演示了应用方法,该算法可实现基于Apriori的相容数据集间关联规则的规则演绎,是普通数据挖掘算法无法实现的,扩展了关联规则算法的应用领域;同时,由于关联规则是在相容数据集上独立挖掘出来的,没有进行原始数据间的交换,在一定程度上实现了隐私保护  相似文献   

9.
提出了一种基于最小分类错误率和Parzen窗的降维方法,利用Parzen窗估计数据的概率密度分布;通过计算各特征维度下的分类错误率,判断该特征维度对目标分类的贡献度;依据贡献度大小进行特征维度选择从而达到降维的目的。  相似文献   

10.
针对协同过滤算法推荐结果存在受噪音数据影响严重的问题,提出了一种基于用户项目间的关联规则集的协同过滤算法.利用经典的Apriori算法进行频繁项集合关联规则集的挖掘,利用挖掘的关联规则集进行用户间的相似度计算,相比于pearson相似等方法,基于关联规则集相似可以提高改进算法对噪音数据的抵抗力,最后进行最近邻居集计算并产生更适合用户的推荐结果.改进算法和传统算法在MovieLens数据集上的实验表明,基于Apriori算法的协同过滤算法较传统算法进一步提高了推荐准度和覆盖率.  相似文献   

11.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

12.
基于粗糙集的医疗数据挖掘研究与应用   总被引:1,自引:0,他引:1       下载免费PDF全文
医疗数据挖掘能够对现有病历数据库中数据进行自动分析并且提供有价值的医学知识。针对临床病历数据库中存在大量重复样本和冗余属性,从而影响医疗诊断的精度和速度这一问题,建立了基于信息论的粗糙集理论模型和SQL语言之间的关系,提出了基于SQL语言的条件信息熵属性约简算法,利用数据库查询语言实现了数据清洗、求核和属性约简等过程。实验结果表明该算法实现简单,运行效率高,为粗糙集理论更广泛地应用于具体的医疗数据挖掘提供了一种方法。  相似文献   

13.
概念格上无冗余关联规则的提取算法NARG   总被引:2,自引:0,他引:2       下载免费PDF全文
在数据挖掘中,关联规则是很有价值的一类规律。普通的挖掘算法会产生大量的规则,尤其是当最小支持度和最小可信度减少时,关联规则的数目急剧上升。如何对规则进行约减而又不丢失数据信息是消除冗余关联规则的关键。根据概念格的理论和冗余关联规则的性质,提出在概念格上提取无冗余关联规则的NARG算法。该算法可以得到最小的无冗余的关联规则集,而且不丢失任何信息,可有效提高关联规则生成的效率。  相似文献   

14.
针对关联数据集合呈现出的大数据特性和蕴含的语义信息,提出了首先建立关联数据集的模式级链接,再进行关联规则挖掘的方法。在同领域RDF数据集上定义RDF数据项模式并提出数据项模式的产生规则;利用RDF数据查询技术从数据项模式获得RDF数据项集合,进而再推导出特定领域内的关联规则。提出的基于关联数据RDF数据项模式的关联规则挖掘方法将关联规则挖掘扩展到同一领域内的数据集合而不再局限于单一数据集,同时给出了基于Hadoop的大规模RDF数据集上的关联规则挖掘的实现方案。实验结果验证了模式级链接对于关联规则挖掘的价值和所提方法的有效性。  相似文献   

15.
空间索引结构和查询技术在空间数据库中具有重要的作用,针对已有的方法在复杂空间数据对象的近似和组织方面的局限性,提出了一种基于最小外接矩形(MBR)、梯形和圆的新的索引结构(RTC树).为了有效处理复杂空间数据对象的最近邻(NN)关系查询问题,提出了基于RTC树的最近邻查询(NNRTC)算法,NNRTC算法利用剪枝规则可减少节点遍历和距离计算.针对障碍物对数据集中最近邻的影响问题,提出了障碍物环境下的基于RTC树的最近邻查询(BNNRTC)算法,BNNRTC算法先在理想空间进行查询,再对查询结果进行判断.为了有效处理动态单纯型连续近邻链查询问题,进一步给出了基于RTC树的动态单纯型连续近邻链查询(SCNNCRTC)算法.实验结果表明,相对基于R树的查询方法,所提的方法在处理数据量较大的复杂空间对象的数据集时可提高60%~80%的效率.  相似文献   

16.
Geohash编码作为一种降维技术目前已应用于空间数据库和空间数据引擎中,但其安全性还有待进一步研究。文章关注Geohash编码存在的安全漏洞,从理论上分析了此种降维技术产生推理通道的原因,并提出一种基于k近邻查询的加密Geohash字段重构算法,通过观察大量k近邻查询响应中的明文信息进行统计推断并重构出加密Geohash的原始值。对加密兴趣点数据库进行重构实验,实验表明,观察到的查询响应数量越多,重构值的精确度越高。在Geohash编码精度为30 bit的情况下,当观察到100000到3000000次查询响应时,重构值与原始值平均误差为0.074%到0.015%。该实验揭示了Geohash编码在抵抗k近邻查询推理攻击方面的脆弱性及形成机理,将促进相关地理信息系统行业的安全应用与研究。  相似文献   

17.
Range nearest-neighbor query   总被引:6,自引:0,他引:6  
A range nearest-neighbor (RNN) query retrieves the nearest neighbor (NN) for every point in a range. It is a natural generalization of point and continuous nearest-neighbor queries and has many applications. In this paper, we consider the ranges as (hyper)rectangles and propose efficient in-memory processing and secondary memory pruning techniques for RNN queries in both 2D and high-dimensional spaces. These techniques are generalized for kRNN queries, which return the k nearest neighbors for every point in the range. In addition, we devise an auxiliary solution-based index EXO-tree to speed up any type of NN query. EXO-tree is orthogonal to any existing NN processing algorithm and, thus, can be transparently integrated. An extensive empirical study was conducted to evaluate the CPU and I/O performance of these techniques, and the study showed that they are efficient and robust under various data sets, query ranges, numbers of nearest neighbors, dimensions, and cache sizes.  相似文献   

18.
为了解决高维数据相似性连接查询中存在的维度灾难和计算代价高等问题,基于p-稳态分布,将高维数据映射到低维空间。根据卡方分布的性质,证明了如果低维空间的距离大于,则原始空间距离大于ε的概率具有一定的下界,从而可以在低维空间以较低的计算代价进行有效过滤。在此基础上,提出了基于卡方分布的高维数据相似性连接查询算法。为了进一步提高查询效率,提出了基于双重过滤的高维数据相似性连接查询算法。利用真实数据集进行了实验,实验结果表明所提方法具有较好的性能。基于卡方分布的相似性连接查询算法召回率可以达到90%以上。基于双重过滤的相似性连接查询算法可以进一步提高性能,但是会损失一定的召回率。对时间性能要求比较高、对召回率要求不太严格的查询任务可以采用基于双重过滤的相似性连接查询算法;反之,可以采用基于卡方分布的相似性连接查询算法。  相似文献   

19.
语义Web环境下的关联规则挖掘是数据挖掘领域新的研究热点.本文针对SWRL数据集的特征,建立新的数据挖掘形式背景,将FCA用于关系型关联规则的挖掘,提出了基于搜索空间分割的关联规则挖掘方法.采用FCA作为频繁模式的压缩表示方式,从生成的闭查询导出的关联规则,可有效控制冗余规则的产生.将搜索空间进行划分可减小问题的规模,充分利用已有的挖掘过程的中间结果所提供的信息,减少了计算量.由于采用了分而治之的策略,本文的方法易于扩展到对海量语义Web数据的并行处理.  相似文献   

20.
伴随车辆是公安刑侦部门对海量车辆通行信息检索的一类实战需求,目的是通过模糊条件查询得到潜在的结伴作案车辆,究其本质,可将此类查询转化为数据挖掘中关联规则挖掘问题。通过对公路车辆智能监测记录系统采集的过车数据进行分析,将伴随车辆查询转化为关联规则挖掘,利用数据挖掘技术对过车数据查询问题进行综合分析,实现高效率的伴随车辆查询算法AVD(Accompany Vehicles D iscovery)。算法分析表明,AVD不但能提供准确的伴随车辆查询结果,而且效率高、扩展性强,具有较高的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号