首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
从数据管理中的近似查询方向,对图数据的近似查询算法进行了研究.依据近似查询的类别,分别介绍了近似查询中的经典算法,并对这些算法进行了详细的分析和讨论,从索引单元以及索引机制比较了各种算法适用的范围以及应用领域.重点阐述和比较了各算法的特点及查询性能,分析了各个算法存在的优势和不足.对近似查询中现有算法的不足及未来的研究方向进行了讨论.  相似文献   

2.
图近似查询能够得到与查询图近似的结果集,相比较精确查询具有更广泛的应用范围。为提高近似查询的查准率和查全率,提出一种基于图结构分解的查询算法。该算法通过对查询图和目标图进行图结构分解,对其建立图分解索引,利用查询图的最小生成树集得到满足阈值的生成树集,通过图标准编码在索引中快速定位,查找出所有可能的近似结果。实验结果表明,该算法能有效得到近似结果,提高查询速度。  相似文献   

3.
秦逸 《计算机科学》2012,39(11):86-89
电子邮件作为一种重要的信息交互手段,引发了诸如垃圾邮件、恶意邮件、隐私泄露等一系列严重的问题。 垃圾邮件检测是近年来出现的一个研究领域,其目的在于判定一封邮件是否为垃圾邮件。提出了一种基于邮件行为 的垃圾邮件检测技术I3JMD,介绍了邮件行为检测的主要思想和算法过程。通过在实际邮件集上的实验和分析,给出 了新方法的一些性能评判。  相似文献   

4.
图像型垃圾邮件过滤技术综述   总被引:4,自引:3,他引:1  
从基于图像特征的图像型垃圾邮件的检测难点入手,总结了目前用于识别垃圾邮件的图像特征,将其归类为文件属性、图像属性等八类特征。对已经用于图像型垃圾邮件分类的五种分类算法,包括支持向量机、决策树法、最大熵模型、DS证据理论、贝叶斯算法进行了理论分析与效果比较。最后对图像型垃圾邮件过滤技术的研究方向进行了展望。  相似文献   

5.
针对高维大数据集,提出了二阶段近似最近邻离群挖掘算法(TPOM),在聚类的基础上,通过加速最近邻查询和改善剪枝效率,提高了循环嵌套KNN算法的离群检测效率。应用分析表明,该算法对于实际数据集有良好的适用性和可扩展性,具有近似线性的时间复杂度。  相似文献   

6.
运用TEIRESIAS算法从邮件中提取模式作为表示邮件的属性,在此基础上实现了一个贝叶斯垃圾邮件过滤实验系统。通过实验,比较分析了该过滤器的性能,并讨论了属性集大小、属性最少出现次数对基于模式的贝叶斯垃圾邮件过滤系统的影响。  相似文献   

7.
《计算机科学与探索》2017,(12):1871-1885
why-not问题是为查询结果中的缺失元组找到合理的解释。解决数据库查询中的why-not问题不仅能够帮助用户更好地理解查询,而且能够提高数据库的质量和可用性。为了提高图数据库的可用性,提出了支持近似图查询的why-not问题解释方法。该解释方法不仅阐明了为什么why-not问题没有出现在查询结果中,而且给出了一些修改初始查询图的建议,使得why-not问题能够出现在修改后的查询图的查询结果中。该算法分两部分完成:第一部分为候选修改操作生成阶段,首先利用边频率信息提出候选操作集生成基本算法,接着利用图分解操作提出候选操作集生成改进算法,得到修改初始查询图的候选操作集;第二部分基于对查询图修改操作数最少的代价模型,分别采用贪心算法和回溯法选取候选操作,贪心算法设计了合理的贪心函数,回溯法构建了回溯剪枝树,并提出三种剪枝策略执行剪枝操作,最终选取的候选操作集即为支持近似图查询的why-not问题的合理解释。实验表明,该方法可以快速有效地为近似图查询中的why-not问题提供合理解释。  相似文献   

8.
潘立强  李建中  骆吉洲 《软件学报》2010,21(5):1020-1030
由于无线传感器网络的能源有限,且在许多应用中Skyline查询的部分结果即可满足用户需求,提出了一种近似Skyline查询处理算法,在满足用户查询需求的前提下最大化地节省能量.该算法仅需无线传感器网络中的部分传感器节点回传其感知数据即可计算出Skyline查询的一个近似结果集.由于该算法在处理查询时,每个传感器节点只需考察自身数据信息即可决定是否回传其感知数据,而无须与其他传感器节点的感知数据进行比较,因此可以避免大量的网内通信开销,从而节省网络能源.模拟环境下的大量实验结果表明,该算法可以根据用户的应用需求,节能地处理传感器网络中的近似skyline查询.  相似文献   

9.
本文在简要介绍PPM数据压缩算法及其改进的基础上,着重论述该算法在垃圾邮件过滤中的应用。首先将样本邮件进行文本预处理,并对正常邮件和垃圾邮件训练集进行训练,分别建立上下文模型;然后输入待过滤邮件,与PPM压缩模型进行比较,分别计算交叉熵以判断邮件类型;最后,测试结果表明,该算法达到较好效果。  相似文献   

10.
基于文本区域特征的图像型垃圾邮件过滤算法   总被引:4,自引:0,他引:4  
垃圾邮件图像中通常含有大量文本区域,且这些区域常含有较多区分能力强的特征。提出一种基于图像中文本区域特征的垃圾邮件图像识别算法。首先提取出图像中文本区域的特征,包括:文本区域数量和面积、色饱和度、文字数量和颜色数量,以及图像的一些属性特征如图像面积等;然后利用支持向量机分类算法来识别垃圾邮件图像。实验表明,对于真实的邮件图像集,算法能够识别出98.5%的垃圾邮件图像,且正确率超过98%。  相似文献   

11.
基于小样本学习的垃圾邮件过滤方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?ve Bayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。  相似文献   

12.
This paper proposes a spam detection technique, at the packet level (layer 3), based on classification of e-mail contents. Our proposal targets spam control implementations on middleboxes. E-mails are first pre-classified (pre-detected) for spam on a per-packet basis, without the need for reassembly. This, in turn, allows fast e-mail class estimation (spam detection) at receiving e-mail servers to support more effective spam handling on both inbound and outbound (relayed) e-mails. In this paper, the naïve Bayes classification technique is adapted to support both pre-classification and fast e-mail class estimation, on a per-packet basis. We focus on evaluating the accuracy of spam detection at layer 3, considering the constraints on processing byte-streams over the network, including packet re-ordering, fragmentation, overlapped bytes, and different packet sizes. Results show that the proposed layer-3 classification technique gives less than 0.5% false positive, which approximately equals the performance attained at layer 7. This shows that classifying e-mails at the packet level could differentiate non-spam from spam with high confidence for a viable spam control implementation on middleboxes.  相似文献   

13.
伴随着电子邮件的广泛使用,垃圾邮件泛滥成灾,严重影响了人们正常的学习、工作和生活。拳文针对目前的垃圾邮件主要是由多种商业或政治性类别的垃圾邮件组成的特点,利用学习向量量化网络能把多个子类合并成一个复杂大类的特性,构建了一个反垃圾邮件的LVQ神经网络模型,我们对该LVQ网络模型进行了与其他算法的对比试验,试验表明它比基于贝叶斯公式算法和基于神经网络BP算法的过滤器有更好的性能。  相似文献   

14.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。  相似文献   

15.
随着互联网的普及,电子邮件作为一种被人们广泛使用的工具,已被越来越多的不法分子用作广告、反动、色情等信息传播的工具,产生了大量的垃圾邮件.目前主流的垃圾过滤器是基于文本的,垃圾邮件制造者为了逃避被过滤,常常将文字转化为图像或者将文字嵌入到图像中,产生了大量的垃圾图像.针对广告垃圾图像多为文字图像这一特点,根据文字图像中的文字边缘分布特征,提出一种基于边缘特征的广告垃圾图像过滤方法,先检测出图像的纵向边缘,然后根据纵向边缘的分布特征提取文字行区域,最后将文字行区域去噪,确定最终的文字区域.实验证明,该方法效果良好.  相似文献   

16.
The adaptive nature of unsolicited email by the use of huge mailing tools prompts the need for spam detection. Implementation of different spam detection methods based on machine learning techniques was proposed to solve the problem of numerous email spam ravaging the system. Previous algorithm used in email spam detection compares each email message with spam and non-spam data before generating detectors while our proposed system inspired by the artificial immune system model with the adaptive nature of negative selection algorithm uses special features to generate detectors to cover the spam space. To cope with the trend of email spam, a novel model that improves the random generation of a detector in negative selection algorithm (NSA) with the use of stochastic distribution to model the data point using particle swarm optimization (PSO) was implemented. Local outlier factor is introduced as the fitness function to determine the local best (Pbest) of the candidate detector that gives the optimum solution. Distance measure is employed to enhance the distinctiveness between the non-spam and spam candidate detector. The detector generation process was terminated when the expected spam coverage is reached. The theoretical analysis and the experimental result show that the detection rate of NSA–PSO is higher than the standard negative selection algorithm. Accuracy for 2000 generated detectors with threshold value of 0.4 was compared. Negative selection algorithm is 68.86% and the proposed hybrid negative selection algorithm with particle swarm optimization is 91.22%.  相似文献   

17.
刘芬  帅建梅 《计算机工程》2010,36(16):157-160
提出以图像的梯度直方图和颜色直方图作为分类特征,分析最小二乘支持向量机(LS-SVM)算法以及该算法与传统SVM算法的区别,比较传统分类算法与LS-SVM算法的分类准确度,将LS-SVM算法用于图像垃圾邮件过滤。实验结果表明,该方法能提高图像垃圾邮件的检测率。  相似文献   

18.
为提取垃圾邮件图像中文字的角点信息,提出一种新的基于图像边缘和圆形模板的角点检测算法。算法首先利用彩色边缘检测算子和阈值分割方法获取文字图像的边缘,然后采用圆形模板提取文字的角点信息。边缘检测和阈值分割降低了干扰背景和噪声对角点检测的影响,圆形模板使得角点检测对文字方向变化不敏感。实验表明,在真实的垃圾邮件图像中文字角点定位精度略高于SUSAN算法,并能同时获取角点角度的大小。  相似文献   

19.
一种基于SVM算法的垃圾邮件过滤方法   总被引:4,自引:1,他引:3       下载免费PDF全文
基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一。针对垃圾邮件过滤本质是分类问题,提出了一种基于支持向量机对垃圾邮件过滤的方法,并且将SMO分类算法结合到垃圾邮件分类中。通过实验,SMO算法能够取得较好的分类效果,缩短了支持向量机分类器的分类时间。  相似文献   

20.
改进ReliefF算法在图像型垃圾邮件检测中的应用研究*   总被引:1,自引:0,他引:1  
图像型垃圾邮件的传播给社会和人民生活造成了极大的负面影响。一些垃圾图像过滤技术的应用在一定程度上遏制了它的泛滥,但是在时间消耗和精确度方面很难兼顾。在对垃圾邮件图像的特征数据深入分析后,提出一种基于特征冗余度的ReliefF特征选择算法(R-ReliefF算法)。本算法首先获取图像特征,结合数据特征进行离散化,并对这些离散化后的特征集合进行优化,最后应用在垃圾图像识别上。对比发现,优化后提取的特征子集在识别垃圾邮件图像方面既减少了时间消耗,又提高了垃圾图像识别的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号