首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。  相似文献   

2.
为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了一种基于“超文本标记加权”和“超链接森林”的因特网信息提取方法,并与传统方法进行了对比。实验结果表明,该方法用于网页的自动分类具有较好的效果。  相似文献   

3.
中文网页自动分类研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文以实践经验为基础,对网页的源程序公共结构进行了分析,并充分考虑到中文网页的文字特点,给出了一种中文网页的分类方法与实现手段,结果表明该方法行之有效。  相似文献   

4.
中文网页自动分类现状的研究   总被引:1,自引:0,他引:1  
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。  相似文献   

5.
本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。  相似文献   

6.
王冠  裘正定 《微机发展》2005,15(3):136-138,141
AIP(All day Information Pursue)平台,即全天候信息跟踪平台,作为关注多方面消息的企业或团体查看Internet上新信息的一种解决方案,弥补了搜索引擎一些方面的不足。它能够从Internet上获取每日的新信息,利用网页自动分类去除不相关文章。通过此平台.用户可以按时间、按类别来查看信息,也可以对文章加以标注推荐给别人阅读。  相似文献   

7.
中文网页分类研究与系统实现   总被引:3,自引:1,他引:3  
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。  相似文献   

8.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

9.
AIP(All day Information Pursue)平台,即全天候信息跟踪平台,作为关注多方面消息的企业或团体查看Internet上新信息的一种解决方案,弥补了搜索引擎一些方面的不足.它能够从Internet上获取每日的新信息,利用网页自动分类去除不相关文章.通过此平台,用户可以按时间、按类别来查看信息,也可以对文章加以标注推荐给别人阅读.  相似文献   

10.
Oracle Text是一种创建文本搜索和文档分类应用的技术。本文提出了一种基于该技术实现中文网页自动分类系统的解决方案。实验结果表明该方案准确有效,具有较好的性能,满足中文网页自动分类的需求。  相似文献   

11.
基于RSOM-Bayes的网页分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对向量空间模型的网页分类计算复杂度高、不适用于大规模场景问题,该文采用RSOM和BAYES相结合的方法实现网页分类,利用RSOM 神经网络树实现网页特征词的自动索引,利用Bayes实现网页的自动分类。结果证明其在特征空间维数、检索效率、样本容量及检索精度方面都具有良好的性能。  相似文献   

12.
将文本分类技术应用于林业Web黄页的分类,实现了林业Web黄页信息的高效应用和管理。讨论了林业Web黄页多层次分类体系,并给出了分类系统的设计方案和关键技术,详细介绍了类别区分词特征选择算法。实验结果具有较好的准确率和查全率。  相似文献   

13.
本文介绍了传统行业网站面对目前互联网的迅速发展出现的问题,分析了静态网页和动态网页的特点,针对这些问题及特点,提出了动态网页向静态网页转变的方法和实现的编码。  相似文献   

14.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。   相似文献   

15.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。  相似文献   

16.
徐甜  肖新峰 《微计算机信息》2007,23(21):284-285,283
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述.  相似文献   

17.
基于网站结构挖掘的Web文档自动分类   总被引:3,自引:0,他引:3  
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。  相似文献   

18.
支持向量机(Support Vector Machines,简称SVM)根据有限的样本信息在对文本分类的精度和学习能力之间,相比其他的文本分类算法寻求了最佳折中,从而获得了较好的推广能力。而SVM是从线性可分情况下的最优分类面发展而来的,因此对于线性可分文本具有更好的分类效果。给出了一种效率较高的线性可分文本的SVM算法,它在训练的时间复杂度上具有明显的改进,从而可以提高训练效率。结果表明:改进后的SVM算法相比以前的算法大大提高了运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号