首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于Bayes算法的Web网页识别   总被引:2,自引:0,他引:2  
Internet的飞速发展在带给人们很多方便的同时,也出现了一个新问题,即如何从大 信息中快速而方便地找到所需要的信息。Web网页识别是其关键技术问题之一。使用了两种机器学习算法-Bayes算法,改进Bayes算法实现了网页识别,并对两种机器学习算法的效果进行了实验分析。  相似文献   

2.
提出一个面向教学的Web页面自动分类的框架,并详细叙述了这一框架的实现。重点在于页面元数据的提取,页面特征的选取和量化。系统采用基于决策树的分类方法,采用C4.5机器学习算法,通过对大量人工标注页面的学习形成分类规则,并利用链接相关性对分类结果进行优化,以提高精度。  相似文献   

3.
针对Naive Bayes方法中条件独立性假设常常与实际相违背的情况,提出了CLIF_NB文本分类学习方法,利用互信息理论,计算特征属性之间的最大相关性概率,用变量集组合替代线性不可分属性,改善条件独立性假设的限制,并通过学习一系列分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.  相似文献   

4.
一种Web信息的启动式检索方法   总被引:1,自引:0,他引:1  
Internet是一个开放的全球分布式网络,资源分布在世界上不同的地方,并且网上资源没有统一的管理和结构,导致了信息搜索的困难,同时,Interent是一个有巨大价值的信息源,因此,研究一种快速,高效的Web信息检索方法是很有实用意义的,本文提出了一种用相关度及用户兴趣作为评价函数在Internet上进行启发式搜索及在此基础上利用机器学习有效的实现搜索知识重用的方法。  相似文献   

5.
基于网页上下文的Deep Web数据库分类   总被引:6,自引:0,他引:6       下载免费PDF全文
马军  宋玲  韩晓晖  闫泼 《软件学报》2008,19(2):267-274
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.  相似文献   

6.
面向主题的Web信息收集系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展面向主题信息的专用网络信息检索工具已经成为趋势。文中提出的面向主题的Web信息收集系统是这类工具的核心部件,该系统采用文档矢量模型进行文档相关度计算,并结合页面链接的上下文信息过滤页面;借鉴并修改了Shark启发式查找算法来查找相关页面;可采用多机并行下载提高收集效率;并依据站点的重要程度进行动态更新。在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统,整个系统在低性能的台式机上就能运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。  相似文献   

7.
一种Web信息的启发式检索方法   总被引:3,自引:0,他引:3  
Internet是一个开放的全球分布式网络 ,资源分布在世界上不同的地方 ,并且网上资源没有统一的管理和结构 ,导致了信息搜索的困难 .同时 ,Internet是一个有巨大价值的信息源 .因此 ,研究一种快速、高效的 Web信息检索方法是很有实用意义的 .本文提出了一种用相关度及用户兴趣作为评价函数在 Internet上进行启发式搜索及在此基础上利用机器学习有效的实现搜索知识重用的方法  相似文献   

8.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

9.
Web挖掘研究     
随着网络的飞速发展Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤。最后给出了Web挖掘的研究方向。  相似文献   

10.
Web浏览器历史数据自动分类取证系统   总被引:1,自引:1,他引:0  
石淼磊  苏璞睿  冯登国 《计算机应用》2006,26(10):2427-2429
为提高取证的自动化程度,提出了一种基于页面自动分类技术的浏览器历史数据取证算法,并设计实现了一个原型系统。该系统在获取浏览器历史数据的基础上,自动对其进行特征提取、页面分类。实验结果表明该系统有效提高了取证人员的效率和准确度。  相似文献   

11.
网页去噪:研究综述   总被引:5,自引:0,他引:5  
互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.  相似文献   

12.
A Study of Approaches to Hypertext Categorization   总被引:34,自引:2,他引:34  
Hypertext poses new research challenges for text classification. Hyperlinks, HTML tags, category labels distributed over linked documents, and meta data extracted from related Web sites all provide rich information for classifying hypertext documents. How to appropriately represent that information and automatically learn statistical patterns for solving hypertext classification problems is an open question. This paper seeks a principled approach to providing the answers. Specifically, we define five hypertext regularities which may (or may not) hold in a particular application domain, and whose presence (or absence) may significantly influence the optimal design of a classifier. Using three hypertext datasets and three well-known learning algorithms (Naive Bayes, Nearest Neighbor, and First Order Inductive Learner), we examine these regularities in different domains, and compare alternative ways to exploit them. Our results show that the identification of hypertext regularities in the data and the selection of appropriate representations for hypertext in particular domains are crucial, but seldom obvious, in real-world problems. We find that adding the words in the linked neighborhood to the page having those links (both inlinks and outlinks) were helpful for all our classifiers on one data set, but more harmful than helpful for two out of the three classifiers on the remaining datasets. We also observed that extracting meta data from related Web sites was extremely useful for improving classification accuracy in some of those domains. Finally, the relative performance of the classifiers being tested provided insights into their strengths and limitations for solving classification problems involving diverse and often noisy Web pages.  相似文献   

13.
Web挖掘研究     
随着网络的飞速发展,Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。  相似文献   

14.
         下载免费PDF全文
Concept index (CI) is a very fast and efficient feature extraction (FE) algorithm for text classification. The key approach in CI scheme is to express each document as a function of various concepts (centroids) present in the collection. However,the representative ability of centroids for categorizing corpus is often influenced by so-called model misfit caused by a number of factors in the FE process including feature selection to similarity measure. In order to address this issue, this work employs the "DragPushing" Strategy to refine the centroids that are used for concept index. We present an extensive experimental evaluation of refined concept index (RCI) on two English collections and one Chinese corpus using state-of-the-art Support Vector Machine (SVM) classifier. The results indicate that in each case, RCI-based SVM yields a much better performance than the normal CI-based SVM but lower computation cost during training and classification phases.  相似文献   

15.
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。  相似文献   

16.
网络信息搜寻技术与发展   总被引:7,自引:0,他引:7  
信息搜寻是网络技术的新课题。本文介绍了在因特网上进行信息搜寻采用的算法、策略和现有检索工具的工作原理以及网络信息搜寻技术的新发展。  相似文献   

17.
基于决策树方法的特定主题Web搜索策略   总被引:2,自引:0,他引:2  
李新安  石冰 《计算机应用》2006,26(1):223-0226
基于数据挖掘中决策树方法提出了一种新的Web搜索策略。在该策略中,通过对预先采集的Web页面进行学习得到一棵决策树,然后对其进行剪枝,得到简化布尔表达式形式的主题内在规律性信息,在其基础上进行查询修改,把修改后的查询转发到通用搜索引擎上,最终得到查询结果。实验结果表明,提出的查询策略对于特定主题的Web搜索,查询结果的质量有明显的改善和提升。  相似文献   

18.
面向信息检索需要的网络数据清理研究   总被引:2,自引:0,他引:2  
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。  相似文献   

19.
    
The last decade has seen an increase in the attention paid to the development of cost-sensitive learning algorithms that aim to minimize misclassification costs while still maintaining accuracy. Most of this attention has been on cost-sensitive decision tree learning, whereas relatively little attention has been paid to assess if it is possible to develop better cost-sensitive classifiers based on Bayesian networks. Hence, this paper presents EBNO, an algorithm that utilizes Genetic algorithms to learn cost-sensitive Bayesian networks, where genes are utilized to represent the links between the nodes in Bayesian networks and the expected cost is used as a fitness function. An empirical comparison of the new algorithm has been carried out with respect to (a) an algorithm that induces cost-insensitive Bayesian networks to provide a base line, (b) ICET, a well-known algorithm that uses Genetic algorithms to induce cost-sensitive decision trees, (c) use of MetaCost to induce cost-sensitive Bayesian networks via bagging (d) use of AdaBoost to induce cost-sensitive Bayesian networks, and (e) use of XGBoost, a gradient boosting algorithm, to induce cost-sensitive decision trees. An empirical evaluation on 28 data sets reveals that EBNO performs well in comparison with the algorithms that produce single interpretable models and performs just as well as algorithms that use bagging and boosting methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号