首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2  
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

2.
扩展的树增强朴素贝叶斯分类器   总被引:1,自引:0,他引:1  
树增强朴素贝叶斯分类器继承了朴素贝叶斯分类器计算简单和鲁棒性的特点,同时分类性能常常优于朴素贝叶斯分类器,然而在有连续变量的情况下要求必须进行预离散化.为了更好地表达数据的分布,减少信息损失,有必要考虑混合数据的情况.本文推导混合数据的极大似然函数,提出扩展的树增强朴素贝叶斯分类器,突破必须对连续变量进行预离散化的限制,能够在树增强朴素贝叶斯分类器的框架内处理混合变量的情况.实验测试证明其具有良好的分类精度.  相似文献   

3.
基于概率的贝叶斯分类器以其简单的结构和良好的性能受到重视,树扩展朴素贝叶斯分类器TANC应用较广。用TANC-BIC结构学习算法构建的分类器取得了成功,但TANC-BIC结构学习算法未考虑类节点的情况。文中提出了一种新的结构学习TANC-CBIC算法。并在贝叶斯分类器实验平台MBNC上编程实现。实验结果表明,改进算法分类准确率要高于由TANC-BIC和TANC-CMI结构学习算法构建的分类器,TANC-CBIC结构学习算法是有效的。  相似文献   

4.
基于概率的贝叶斯分类器以其简单的结构和良好的性能受到重视,树扩展朴素贝叶斯分类器TANC应用较广。用TANC—BIC结构学习算法构建的分类器取得了成功,但TANC—BIC结构学习算法未考虑类节点的情况。文中提出了一种新的结构学习TANC—CBIC算法。并在贝叶斯分类器实验平台MBNC上编程实现。实验结果表明,改进算法分类准确率要高于由TANC—BIC和TANC-CMI结构学习算法构建的分类器,TANC—CBIC结构学习算法是有效的。  相似文献   

5.
文中研究贝叶斯分类器家族中的一种扩展朴素贝叶斯分类器。此种扩展朴素贝叶斯分类器满足两个条件:一是类结点是所有属性的父结点;二是每个属性最多有一个属性父结点。其中有代表性的两种算法是贪婪爬山算法(Hill Climbing Search,即HCS算法)和超父结点算法(Superparent,即SP算法)。对两种算法进行了分析和比较,并在此基础上提出了一种改进算法。通过实验验证所改进的分类器是正确的、有效的。  相似文献   

6.
文中研究贝叶斯分类器家族中的一种扩展朴素贝叶斯分类器。此种扩展朴素贝叶斯分类器满足两个条件:一是类结点是所有属性的父结点;二是每个属性最多有一个属性父结点。其中有代表性的两种算法是贪婪爬山算法(Hill Climb-ing Search,即HCS算法)和超父结点算法(Superparent,即SP算法)。对两种算法进行了分析和比较,并在此基础上提出了一种改进算法。通过实验验证所改进的分类器是正确的、有效的。  相似文献   

7.
邵欣欣 《软件工程》2021,(7):28-30,27
针对采用贝叶斯分类器算法进行商品描述分类时,出现大量混淆性词汇从而无法保证特征间独立的问题,提出了采用停用词优化的贝叶斯分类器算法,通过词频统计和词性筛选的方式,过滤掉大部分混淆性词汇,从而保证特征独立.针对相似类别无法准确区分的问题,提出了子模型训练的解决方案,对易混淆类别单独进行训练并记录训练过程,在测试阶段根据结...  相似文献   

8.
郑芸芸  王萍  游强华 《福建电脑》2013,(10):99-100,134
朴素贝叶斯分类器是建立在一个指定类别中各属性的取值是相互独立的上的,但在实际运用过程中独立性假设经常是不存在的.而粗糙集模型提供了属性离散化和约简技术,能改善属性间的依赖关系,得到相互独立的核心属性.因此,将两种不同的计算方法想结合,利用粗糙集先对数据进行约简,然后在利用朴素贝叶斯分类器,得到分类结果.实验证明这种方法改善了朴素贝叶斯分类器.  相似文献   

9.
10.
基于贝叶斯分类器的图像检索相关反馈算法   总被引:9,自引:1,他引:9       下载免费PDF全文
苏中  张宏江  马少平 《软件学报》2002,13(10):2001-2006
由于图像底层特征及其本身所包含的上层语义信息的巨大差距,使得基于内容的图像检索很难取得令人满意的效果.作为一种有效的解决方案,在过去的几年中,相关反馈在该研究领域取得了一定的成功.提出了一种新的具有学习能力的反馈算法.该算法基于贝叶斯分类原理,运用不同的反馈策略分别处理正、负反馈,同时它具有学习能力,可以运用用户的反馈信息不断地修正检索参数,使系统的检索能力得到不断的提高.通过在大图片库上的检索实验 ,该算法产生的效果大大优于当前其他的反馈方法.  相似文献   

11.
Focused crawlers have as their main goal to crawl Web pages that are relevant to a specific topic or user interest, playing an important role for a great variety of applications. In general, they work by trying to find and crawl all kinds of pages deemed as related to an implicitly declared topic. However, users are often not simply interested in any document about a topic, but instead they may want only documents of a given type or genre on that topic to be retrieved. In this article, we describe an approach to focused crawling that exploits not only content-related information but also genre information present in Web pages to guide the crawling process. This approach has been designed to address situations in which the specific topic of interest can be expressed by specifying two sets of terms, the first describing genre aspects of the desired pages and the second related to the subject or content of these pages, thus requiring no training or any kind of preprocessing. The effectiveness, efficiency and scalability of the proposed approach are demonstrated by a set of experiments involving the crawling of pages related to syllabi of computer science courses, job offers in the computer science field and sale offers of computer equipments. These experiments show that focused crawlers constructed according to our genre-aware approach achieve levels of F1 superior to 88%, requiring the analysis of no more than 65% of the visited pages in order to find 90% of the relevant pages. In addition, we experimentally analyze the impact of term selection on our approach and evaluate a proposed strategy for semi-automatic generation of such terms. This analysis shows that a small set of terms selected by an expert or a set of terms specified by a typical user familiar with the topic is usually enough to produce good results and that such a semi-automatic strategy is very effective in supporting the task of selecting the sets of terms required to guide a crawling process.  相似文献   

12.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

13.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

14.
网络舆情分析是智能信息处理领域的研究热点,本模型及时从互联网上获得相关网站信息,从中检测出舆情信息并借助数据分析模型对其进行深层次追踪分析,反映出网络舆情的发展趋势和特点,达到预警和监督的目的。  相似文献   

15.
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法.VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘.  相似文献   

16.
由于控制系统所固有的滞后性,可拓控制也和其他"事后"控制方法一样,无法实现精准的控制效果.为了克服一般可拓控制的缺点,提出了一种基于灰色预测的可拓控制方法.该方法先对系统输出量进行灰色预测,然后将预测结果与给定值比较,二者差值作为可拓控制器的输入量,再经特征量提取、关联度计算、测度模式识别和控制决策等环节,得到控制量作...  相似文献   

17.
品牌延伸是充分发挥已有品牌资产作用和市场影响力的有效途径,但盲目进行品牌延伸会给企业造成严重的后果。文章以文脉原则为视角对品牌延伸战略进行分析,得出了通过符号学,运用文脉进行品牌延伸的一些方法,指出品牌延伸应以文脉原则进行品牌文化的延续与更新,使得延伸品牌与原品牌具有文化上的共通性,这对于提高延伸产品的市场成功率具有重大的现实意义。  相似文献   

18.
基于内容和链接分析的主题爬虫策略   总被引:3,自引:1,他引:2  
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。  相似文献   

19.
信息时代,计算机技术等相关信息技术得到了空前发展,而网络信息技术已经成为科技发展过程中非常重要的一部分。网络爬虫技术得到了普及,更多个人用户使用网络爬虫技术在网站中获取信息,对目标网站的运营造成了一定影响。基于此,一些网站采取了相应措施,比如反爬虫技术,防止网络爬虫。笔者分析了网站的一些反爬虫策略,并提出几点见解。  相似文献   

20.
基于可拓方法的智能策略生成器的研究   总被引:1,自引:0,他引:1  
提出了解决矛盾问题的智能型集成化可拓策略生成器的设计思路和总体结构框架。系统设计基于综合集成方法的基本思想,遵循信息组织和可拓决策知识的特点,将物元分析法、专家系统、决策支持系统、神经网络有机地组织集成起来,从而快速、灵活地为决策者提供从知识获取、判断推理到创造性思维、策略生成的智能决策支持环境。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号