首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,"网络传销国家监控中心"用这个模型有效地对网络传销网页集合进行了分类。  相似文献   

2.
提出一种基于图的半指导学习算法用于网页分类.采用k近邻算法构建一个带权图,图中节点为已标志或未标志的网页,连接边的权重表示类的传播概率,将网页分类问题形式化为图中类的概率传播.为有效利用图中未标志节点辅助分类,结合网页的内容信息和链接信息计算网页间的链接权重,通过已标志节点,类别信息以一定概率从已标志节点推向未标志节点.实验表明,本文提出的算法能有效改进网页分类结果.  相似文献   

3.
在海量暗网网页中筛选敏感主题内容对执法部门具有重要意义。通过对Freenet等暗网网页文本特点和类别进行深入分析,提出基于TextCNN的暗网网页主题分类模型。模型根据暗网网页非标准化的语言特点进行数据预处理;使用预训练的词向量获得网页内容的表示,通过不同大小的卷积核进行卷积操作获得特征图像,使用最大池化函数获得最终的特征向量;对卷积网络进行正则化处理,使用softmax函数预测类别概率。实验结果表明,采用该方法精确率为86.01%,召回率为78.97%, Macro-F1值为82.33%,高于机器学习模型,能够有效解决暗网网页分类问题。  相似文献   

4.
运用卷积神经网络技术提出一种基于网页图像分类的自动化网页正文抽取模型(I-AWCE)。通过分析现有网页类型及网页正文在网页中的位置和结构特点,将网页分为文章网页和列表网页。根据网页截屏图像在卷积神经网络模型中的分类结果,分别提出两种基于多特征融合的网页正文提取方法。实验结果表明,网页图像数据集在LeNet-5和预训练模型的效果最好;与Boilerpipe抽取模型相比,基于图像分类的自动化网页正文抽取模型具有较高的准确性,可以满足网页正文自动化抽取的实际需要。  相似文献   

5.
网络监控系统中的实用网页分类技术   总被引:1,自引:0,他引:1  
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

6.
本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。  相似文献   

7.
陈益军 《福建电脑》2007,(6):137-137,145
网页分类是指在给定分类体系的情况下,根据网页的属性自动确定其所属类别的过程.近年来,网页分类在信息检索和机器学习领域得到了广泛的关注,有不少效果较好的方法,如SVM,KNN等.但是由于网页是具有丰富的描述信息的结构体,使用纯文本分类技术处理网页是不合理的.本文提出了一种新的网页分类方法将网页分类粒度从整个网页作为分类的原子对象细化到网页的各内容部分,强调了重点部分,弱化了次要部分.本文在KNN算法的基础上,实现了基于元数据的网页分类方法.  相似文献   

8.
二次信息过滤是根据搜索引擎返回的网页,对过滤结果进行理解、分析并进一步过滤,以使结果优化。二次过滤中的样本分类处理中,通过对基于Bayesian算法的网页识别技术的研究,探讨了基于改进的Bayesian算法的网页识别技术,用于对二次过滤中的整篇文档进行进一步的分析以提高过滤效果。  相似文献   

9.
针对传统的Web页面保护系统对所有的网页都“一视同仁”,从而影响用户的访问速度,基于网页分类技术提出了一种改进方案,设计了一个新的页面保护系统,使Web服务器在网页防护上具备完善的、适用的安全体系结构,它能够及时发现并恢复被删改的网页,同时通过对网页进行分类,并对不同分类的网页采用相应的监控策略,从而合理利用系统资源,减小安全措施对服务器性能的影响。  相似文献   

10.
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。  相似文献   

11.
关于“中文网页自动分类竞赛”结果的分析   总被引:5,自引:1,他引:5  
在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。  相似文献   

12.
一种中文网页自动分类方法的实现及应用   总被引:6,自引:0,他引:6  
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。  相似文献   

13.
汤亚玲  崔志明 《计算机工程》2012,38(20):179-183
现有网页分类技术忽略用户个性行为的差异.为此,提出一种结合用户行为特征分析的网页分类技术.运用知识规则发现、页面特征提取等方法,分析Web用户的访问历史和个性化定制信息,学习并掌握用户的行为和兴趣.针对用户的认知特征,提供合适的Web页面分类模式,能在一定程度上改进单纯统计学网页分类方法在自然语言理解上的不足.实验数据表明,该分类方法与多种统计学方法相结合实施网页分类均能有效地提高分类准确率,使网页分类结果更接近分类的真实情形和要求.  相似文献   

14.
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。  相似文献   

15.
为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,可应用中文网页自动分类技术,实现快速准确的搜索引擎系统,使其具有较高的查准率.  相似文献   

16.
网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,该文提出了一种基于支持向量机和改进蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召唤率。  相似文献   

17.
网页分类技术是Web数据挖掘的基础与核心,是基于自然语言处理技术和机器学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召回率。  相似文献   

18.
一个网页自动分类系统的设计   总被引:2,自引:0,他引:2  
本文介绍了设计的一个网页自动分类系统。介绍了预处理 ,批量训练 ,特征选择 ,在线测试和重归档等模块的设计过程。系统采用有指导的学习方法 ,选取 Naive Bayes作分类模型和信息增益作为特征提取方法。测试结果表明 ,系统获得了较好的精度  相似文献   

19.
An intelligent categorization engine for bilingual web content filtering   总被引:1,自引:0,他引:1  
It is important to protect children and unsuspecting adults from the harmful effects of objectionable materials, such as pornography, violence, and hate messages, which are now prevalent on the World-Wide Web. This calls for effective tools for web content analysis and filtering of objectionable contents. Our study of existing web content filtering systems has identified a number of deficiencies in these systems. Using the analysis of pornographic web pages as a case study, we present an intelligent bilingual web page categorization engine that can determine if an English or Chinese language web page contains pornographic materials. We have implemented the categorization engine to perform offline web page analysis and near-instantaneous online filtering. Performance evaluation of our system has verified its effectiveness.  相似文献   

20.
Web网页识别中的特征选择问题研究   总被引:26,自引:0,他引:26  
对Web网页识别中有关特征选择的两个重要问题进行了深入的探讨,提出了一种新的描述特征选择方法,并将其与3种已有的描述特征方法进行实验比较,证实其有效性,此外还对5种在文本归类中,具有代表性的识别特征选择方法在Web网页识别中的实际应用效果进行了评估比较,并发现信息增益和统计方法,选择识别特征效果最佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号