首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。  相似文献   

2.
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的Web信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。  相似文献   

3.
吕月娥  李信利 《福建电脑》2007,(2):99-99,122
随着web技术的发展,Web网页越来越多.目前的搜索引擎都是根据用户所给出查询词串的逻辑组合机械地找出一系列匹配网页,这就造成了垃圾信息过多.这篇论文考虑了网页信息类别、网页更新时间和用户点击数,提出了一种基于信息类别的网页过滤算法.这个算法能很好大优化查询结果,提高搜索引擎的性能.  相似文献   

4.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

5.
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.  相似文献   

6.
基于内容的搜索引擎垃圾网页检测   总被引:1,自引:0,他引:1  
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。  相似文献   

7.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

8.
现有钓鱼网页检测算法以网页文本、网站结构或图像等特征进行相似性比较,在性能及效率仍有很大的提升空间.基于此,提出一种融合网页噪声和n-gram的钓鱼网站检测算法,提取出可疑网页中网页噪声,利用n-gram表示成模式特征,与受保护的网站进行相似性计算,以此判断可疑网页是否为钓鱼网页.对钓鱼网站样本数据的检测实验结果表明:该算法处理的网页特征稳定,网页数据量较少,在检测性能与效率较以往算法有了很大提升.  相似文献   

9.
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。  相似文献   

10.
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。  相似文献   

11.
12.
13.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

14.
针对国家烟草管理的现状,有关主管部门在全国推行“行业卷烟生产经营决策管理系统工程”,利用条码等自动识别技术手段实时掌握全国的生产经营信息。但某卷烟厂此前的物流环节已经是“件烟成垛”运输,如何在尽可能保持原有企业管理体系的前提下,达到有关部门的数据统计要求,解决成垛卷烟的物流和信息流的交互与统一问题成为技改的核心。该项目成功的将条码识别与射频识别有机结合起来,为烟草行业信息化提供了生动的应用案例。  相似文献   

15.
16.
17.
煤矿多功能物联网读写器的设计   总被引:1,自引:1,他引:0  
介绍了物联网的概念和结构组成,分析了物联网在煤矿中的具体应用,详细介绍了一种具有煤矿特色的多功能物联网读写器的设计与实现。该读写器应用在物联网的感知层,能够进行物体识别和各类物理信号与环境参数的传送,为煤矿应用物联网提供了一个很好的感知层解决方案。  相似文献   

18.
19.
机械臂绝对定位精度测量   总被引:2,自引:1,他引:1  
提出了用激光跟踪仪标定机械臂的D-H参数、测量机械臂绝对位姿以及对机械臂的绝对定位精度进行分析的方法;用激光跟踪仪测量机械臂各个关节单独运动时得到的一系列离散点,就可确定机械臂各个关节的轴线,由此建立机械臂的D-H坐标系,并对D-H参数进行标定;然后,给出了由6D激光头位姿确定机械臂末端位姿的方法;最后,推出了由测量位姿值与命令位姿值相比较,得到机械臂绝对定位的位置和姿态偏差的方法;这些方法可以有效、迅速地完成对机械臂绝对定位精度的测量.  相似文献   

20.
张锐 《自动化应用》2014,(12):113-114
对国网宁夏电力检修公司宁安运维站近2年来一次设备喷涂PRTV用量的统计数据进行分析整理,得出各类一次设备按照标准要求喷涂PRTV时的用量估算值,并针对现存作业中存在的问题,提出相应解决方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号