共查询到20条相似文献,搜索用时 15 毫秒
1.
P-集合与数据内搜索-应用 总被引:2,自引:0,他引:2
P-集合是把动态特性引入到有限普通集合中,改进普通集合得到的。P-集合是由内P-集合XF(internal packet sets XF)与外P-集合XF(outer packet sets XF)构成的集合对,或者(XF,XF)是P-集合。利用内P-集合,给出数据内搜索的概念,给出F-数据的度量和依赖关系,给出F-数据内搜索迭代算法和准则,给出数据内搜索的应用。P-集合是研究动态信息系统的一个新理论与新方法。 相似文献
2.
3.
随着数据科学研究的不断深入,异常数据对数据分析工作的干扰也越来也大,如何有效检测异常数据已成为数据研究的关键问题之一.目前传统基于距离的方法仅考虑单个对象的异常性,缺少对正常对象之间如何抱团的分析,针对此问题,论文提出了一种基于邻近性(Proximity)和团(Clique)的异常检测算法——PCOD(Proximity Cliques Outlier Detec-tion)算法.该算法引入了图论中团的概念,通过团来解释正常对象之间的连接,根据数据对象间的连接性来分析数据点是否为异常点.PCOD算法主要包括两个步骤:首先,根据数据对象之间的邻近性,将数据中各个对象表示为存在边的无向图;再递归搜索图获取所有团集合,对所有的团进行分析并检测出没有抱团的异常点.最后,使用Arrhythmia、Pima、Vowel等UCI数据集进行实验,实验结果表明PCOD算法在精确率方面优于同类异常检测算法. 相似文献
4.
序列模式挖掘的典型算法-GSP算法及其之后的许多相关算法的重点都是放在寻找所有的序列模式上面。CloSpan算法首先提出搜索封闭集合的思想。封闭集合比全集合更精简有效,并且和全集合有着相同的表达能力。文章的ERIC算法同样用于搜索封闭集合。然而不同于之前算法多采用深度优先的策略,ERIC算法是基于广度优先的。它利用列表来保存序列的位置数据,通过利用序列的有序性,以及基于后向超模式与等位置数据的两个修剪技巧来提高算法的搜索效率。为了确保储存最终结果列表的简洁,ERIC算法对一些特殊情况进行了分析。从最终的试验结果可以看出,ERIC算法在较小支持度的情况下对中大型数据库有很好的搜索效率。 相似文献
5.
逆P-集合(inverse packet sets)是改进P-集合(packet sets)得到的一个新的数学结构,它是由内逆P-集合X珡F(internal inverse packet setX珡F)与外逆P-集合X珡F珚(outer inverse packet setX珡F珚)构成的集合对;或者(X珡F,X珡F珚)是逆P-集合。逆P-集合具有动态特性,逆P-集合的动态特性与另一类信息系统的动态特性相同。P-集合是把动态特性引入到有限普通集合X内,改进有限普通集合X得到的。P-集合具有动态特性,P-集合的动态特性与一类信息系统的动态特性相同。P-集合在一类信息系统中获得了多个应用。P-推理(packet reasoning)是P-集合生成的一个具有动态特性的推理。利用逆P-集合(inverse packet sets)与逆P-推理(inverse packet reasoning)给出逆P-推理与内-外搜索定理、逆P-推理的几何特征,以及逆P-推理与未知信息搜索-辨识的多个基本理论结果与应用。逆P-集合与逆P-推理具有好的应用前景。 相似文献
6.
相似性搜索是从数据库中检索出同给定数据对象相似的数据对象,已有的基于R-tree的相似性搜索,当搜索空间的维的个数较小时效率较高,但当搜索空间的维的个数较大时则效率很低.针对此问题,提出了新的度量空间分割方法和索引结构pgh-tree,利用数据对象与很少几个固定参考对象的距离之差进行数据分割和索引,产生一个平衡的索引树.在此基础上,提出了新的算法,利用查询数据对象与固定参考对象的距离之差过滤掉大部分的不相关数据,具有较小的I/O代价和距离计算复杂性,平均复杂性为θ(n^0.58),是目前复杂性最小的相似性搜索算法.另外还讨论了基于pgh-tree的最近相邻点搜索策略. 相似文献
7.
现有基于密度的聚类方法主要用于点数据的聚类,不适用于大规模轨迹数据。针对该问题,提出一种利用群组和密度的轨迹聚类算法。根据最小描述长度原则对轨迹进行分段预处理找出具有相似特征的子轨迹段,通过两次遍历轨迹数据集获取基于子轨迹段的群组集合,并采用群组搜索代替距离计算减少聚类过程中邻域对象集合搜索的计算量,最终结合群组和密度完成对轨迹数据集的聚类。在大西洋飓风轨迹数据集上的实验结果表明,与基于密度的TRACLUS轨迹聚类算法相比,该算法运行时间更短,聚类结果更准确,在小数据集和大数据集上的运行时间分别减少73.79%和84.19%,且运行时间的减幅随轨迹数据集规模的扩大而增加。 相似文献
8.
9.
10.
11.
针对社交媒体数据搜索中存在的消息文本短、不利于构建索引,排名列表形式单一、无法展现社交媒体数据的整体结构的问题,通过挖掘社交媒体数据隐含的多重语义特征,强化索引结构,提出基于可视分析方法的搜索系统,采用交互式界面可视化表达语义特征,使得搜索更准确.以推特数据为研究对象,基于时间上的语义相关性,首先抽取数据中隐含的话题和命名实体集合;在此基础上构建层次语义图模型,简化数据的内在语义关系,同时为可视化搜索提供必要的索引结构;用户浏览数据时,分裂环形图表示数据的多重语义特征,系统提供多种交互方式方便用户探索更多信息.案例分析结果表明,相对于连线和气泡图特征模式,分裂环形图更加明显,方便用户寻找关注的消息;用户调查结果反映出该方法较传统的搜索方式更容易找到想要的结果. 相似文献
12.
缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的. 相似文献
13.
k-最近邻搜索(KNNS) 在高维空间中应用非常广泛,但目前很多KNNS算法是基于欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用。提出一种基于角相似性的k-最近邻搜索算法(BA-KNNS)。该算法先提出基于角相似性的数据索引结构(BA-Index),参照一条中心线和一条参照线,将数据以系列壳—超圆锥体方式进行组织并分别线性存储;然后确定查询对象的空间位置,有效确定一个以从原点到查询对象的直线为中心线的超圆锥体并在其中进行搜索。实验结果表明,BA-KNNS算法较其他k-最近邻搜索算法有更好的性能。 相似文献
14.
频繁项集挖掘是数据挖掘中的一个基本问题,在许多数据挖掘应用中发挥着重要作用。针对并行频繁项集挖掘算法MrPrePost在大数据环境存在密集数据集下算法效率下降、计算节点负载量不均衡和冗余搜索等问题,提出了基于N-lists和DiffNodeset两种结构的并行频繁项集挖掘算法(Parallel Mining algorithm of Frequent Itemset based on N-list and DiffNodeset structure, PFIMND)。首先,根据N-list和DiffNodeset在存储不同数据集上的优势,设计了稀疏度估计函数(Sparsity Estimation, SE),根据数据集稀疏程度灵活选取其中之一压缩数据集,相比采用单一存储结构消耗的内存更少;其次,提出了计算量估计函数(Computation Estimation, CE)来估计频繁1项集F-list中每一项的负载量,并根据计算量进行均匀分组;最后采用集合枚举树作为搜索空间,为避免组合爆炸和冗余搜索问题,设计了超集剪枝策略和基于宽度优先搜索的剪枝策略,生成最终的挖掘结果。实验结果表明,相比... 相似文献
15.
GRkNN:空间数据库中组反k最近邻查询 总被引:1,自引:0,他引:1
反k最近邻(Reverse k-Nearest-Neighbor,RkNN)查询是在k最近邻(k-Nearest-Neighbor,kNN)查询问题的基础上产生的,获得将查询对象作为kNN的数据对象集合,RkNN可以用于评价查询对象的影响力.根据实际应用中需要查询一组对象的RkNN,如评价连锁店或商业区的影响.文中提出了针对空间数据库的组反k最近邻(Group RkNN,GRkNN)的概念,并设计了相关算法.查询点集合是一组邻近的空间对象,计算查询对象的最小覆盖圆,将最小覆盖圆中的对象作为一个整体进行过滤,设计了基于R树的剪枝方法,通过提炼获取了最终的GRkNN结果.针对真实数据集进行的大量实验表明,提出的GRkNN算法的效率明显优于目前最好的RkNN算法. 相似文献
16.
半P-集合(XF,X)与噪声数据剔除-应用 总被引:1,自引:0,他引:1
半P-集合(half packet sets)是由内P-集合XF (internal packet set XF)与有限普通集合X构成的集合对,或者(XF,X)是半P-集合,它具有内一动态特性。为了剔除噪声数据,获得目标数据,利用半P-集合提出了基于属性补充的递推一别除噪声数据的方法。提出了噪声数据、噪声数据集成与F-数据核概念;给出了噪声数据与F-数据生成的递推方法与递推结构、噪声数据集成与F-数据核关系定理、F-数据依赖与辫识定理、噪声数据递推-剔除定理、噪声数据辨识准则与噪声数据递推-剔除准则,以及噪声数据递推-剔除应用。半P-集合是P-集合理论与应用的一个新的研究分支,是研究具有内一动态信息系统的一个新的数学方法。 相似文献
17.
为了减少高光谱图像数据中的冗余信息,优化计算效率,并提升图像数据后续应用的有效性,提出一种基于邻域熵(NE)的高光谱波段选择算法.首先,为了高效计算样本的邻域子集,采用了局部敏感哈希(LSH)作为近似最近邻的搜索策略;然后,引入了NE理论来度量波段和类之间的互信息(MI),并把最小化特征集合与类变量之间的条件熵作为选取... 相似文献
18.
基于索引数组与集合枚举树的最大频繁项集挖掘算法 总被引:2,自引:0,他引:2
由于其内在的计算复杂性,挖掘密集型数据集的全部频繁项集非常困难,解决方案之一是挖掘最大频繁项集。集合枚举树是最大频繁项集挖掘算法中常用的数据结构,最大频繁项集的挖掘过程也可以看作是集合枚举树的搜索过程。为缩小集合枚举树的搜索空间,采用宽度优先和深度优先相结合的混合搜索策略,提出了一种新的最大频繁项集的挖掘算法Index-MaxMiner。该算法首先设计了索引数组这种新的数据结构,并给出了一个基于二进制位图技术的索引数组的计算方法。通过为每个频繁项增加包含索引,Index-MaxMiner利用一次宽度优先搜索得到了候选最大频繁项集,使集合枚举树的第一层结点个数大幅度减少。然后在候选最大频繁项集中通过深度优先搜索,得到全部最大频繁项集,从而实现了集合枚举树的跳跃式搜索,大大缩小了搜索空间。实验结果表明,该算法可有效提高最大频繁项集的挖掘效率。 相似文献
19.
图数据模型被广泛用于社交网络、生物技术、语义网络等开放、异构环境下的数据建模。标签集约束路径查询是基本路径查询问题之一,因其具有路径描述的灵活性而受到目前研究的重视。目前重点研究布尔查询问题:判断给定顶点对间是否有满足标签集约束的路径,返回是或否。 现研究布尔查询问题的正交问题,称为集合查询问题:给定标签约束集,返回满足标签集约束可达的顶点对。集合查询问题面临两个困难:1)简单地将集合查询问题简化为布尔查询问题的迭代会陷入穷举困境;2)压缩传递闭包的生成树结构虽然能够有效地回答布尔查询问题,但是,这种压缩结构不能有效支持集合查询,因为集合查询需要搜索满足约束连通的所有顶点对。为此,继续采用生成树来压缩标签路径传递闭包,用倒排索引表来加快集合查询所导致的搜索,并进一步给出两个优化算法。在大规模的数据集上的测试表明,本方法在时间和空间效率方面都具有优势。 相似文献