共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
扩展的树增强朴素贝叶斯分类器 总被引:1,自引:0,他引:1
树增强朴素贝叶斯分类器继承了朴素贝叶斯分类器计算简单和鲁棒性的特点,同时分类性能常常优于朴素贝叶斯分类器,然而在有连续变量的情况下要求必须进行预离散化.为了更好地表达数据的分布,减少信息损失,有必要考虑混合数据的情况.本文推导混合数据的极大似然函数,提出扩展的树增强朴素贝叶斯分类器,突破必须对连续变量进行预离散化的限制,能够在树增强朴素贝叶斯分类器的框架内处理混合变量的情况.实验测试证明其具有良好的分类精度. 相似文献
3.
基于概率的贝叶斯分类器以其简单的结构和良好的性能受到重视,树扩展朴素贝叶斯分类器TANC应用较广。用TANC-BIC结构学习算法构建的分类器取得了成功,但TANC-BIC结构学习算法未考虑类节点的情况。文中提出了一种新的结构学习TANC-CBIC算法。并在贝叶斯分类器实验平台MBNC上编程实现。实验结果表明,改进算法分类准确率要高于由TANC-BIC和TANC-CMI结构学习算法构建的分类器,TANC-CBIC结构学习算法是有效的。 相似文献
4.
基于概率的贝叶斯分类器以其简单的结构和良好的性能受到重视,树扩展朴素贝叶斯分类器TANC应用较广。用TANC—BIC结构学习算法构建的分类器取得了成功,但TANC—BIC结构学习算法未考虑类节点的情况。文中提出了一种新的结构学习TANC—CBIC算法。并在贝叶斯分类器实验平台MBNC上编程实现。实验结果表明,改进算法分类准确率要高于由TANC—BIC和TANC-CMI结构学习算法构建的分类器,TANC—CBIC结构学习算法是有效的。 相似文献
5.
文中研究贝叶斯分类器家族中的一种扩展朴素贝叶斯分类器。此种扩展朴素贝叶斯分类器满足两个条件:一是类结点是所有属性的父结点;二是每个属性最多有一个属性父结点。其中有代表性的两种算法是贪婪爬山算法(Hill Climbing Search,即HCS算法)和超父结点算法(Superparent,即SP算法)。对两种算法进行了分析和比较,并在此基础上提出了一种改进算法。通过实验验证所改进的分类器是正确的、有效的。 相似文献
6.
文中研究贝叶斯分类器家族中的一种扩展朴素贝叶斯分类器。此种扩展朴素贝叶斯分类器满足两个条件:一是类结点是所有属性的父结点;二是每个属性最多有一个属性父结点。其中有代表性的两种算法是贪婪爬山算法(Hill Climb-ing Search,即HCS算法)和超父结点算法(Superparent,即SP算法)。对两种算法进行了分析和比较,并在此基础上提出了一种改进算法。通过实验验证所改进的分类器是正确的、有效的。 相似文献
7.
针对采用贝叶斯分类器算法进行商品描述分类时,出现大量混淆性词汇从而无法保证特征间独立的问题,提出了采用停用词优化的贝叶斯分类器算法,通过词频统计和词性筛选的方式,过滤掉大部分混淆性词汇,从而保证特征独立.针对相似类别无法准确区分的问题,提出了子模型训练的解决方案,对易混淆类别单独进行训练并记录训练过程,在测试阶段根据结... 相似文献
8.
9.
10.
由于图像底层特征及其本身所包含的上层语义信息的巨大差距,使得基于内容的图像检索很难取得令人满意的效果.作为一种有效的解决方案,在过去的几年中,相关反馈在该研究领域取得了一定的成功.提出了一种新的具有学习能力的反馈算法.该算法基于贝叶斯分类原理,运用不同的反馈策略分别处理正、负反馈,同时它具有学习能力,可以运用用户的反馈信息不断地修正检索参数,使系统的检索能力得到不断的提高.通过在大图片库上的检索实验 ,该算法产生的效果大大优于当前其他的反馈方法. 相似文献
11.
Guilherme T. de Assis Alberto H. F. Laender Marcos André Gonçalves Altigran S. da Silva 《World Wide Web》2009,12(3):285-319
Focused crawlers have as their main goal to crawl Web pages that are relevant to a specific topic or user interest, playing
an important role for a great variety of applications. In general, they work by trying to find and crawl all kinds of pages
deemed as related to an implicitly declared topic. However, users are often not simply interested in any document about a
topic, but instead they may want only documents of a given type or genre on that topic to be retrieved. In this article, we
describe an approach to focused crawling that exploits not only content-related information but also genre information present
in Web pages to guide the crawling process. This approach has been designed to address situations in which the specific topic
of interest can be expressed by specifying two sets of terms, the first describing genre aspects of the desired pages and
the second related to the subject or content of these pages, thus requiring no training or any kind of preprocessing. The
effectiveness, efficiency and scalability of the proposed approach are demonstrated by a set of experiments involving the
crawling of pages related to syllabi of computer science courses, job offers in the computer science field and sale offers
of computer equipments. These experiments show that focused crawlers constructed according to our genre-aware approach achieve
levels of F1 superior to 88%, requiring the analysis of no more than 65% of the visited pages in order to find 90% of the
relevant pages. In addition, we experimentally analyze the impact of term selection on our approach and evaluate a proposed
strategy for semi-automatic generation of such terms. This analysis shows that a small set of terms selected by an expert
or a set of terms specified by a typical user familiar with the topic is usually enough to produce good results and that such
a semi-automatic strategy is very effective in supporting the task of selecting the sets of terms required to guide a crawling
process. 相似文献
12.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。 相似文献
13.
基于遗传算法的主题爬行技术研究 总被引:3,自引:0,他引:3
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页. 相似文献
14.
网络舆情分析是智能信息处理领域的研究热点,本模型及时从互联网上获得相关网站信息,从中检测出舆情信息并借助数据分析模型对其进行深层次追踪分析,反映出网络舆情的发展趋势和特点,达到预警和监督的目的。 相似文献
15.
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法.VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘. 相似文献
16.
17.
品牌延伸是充分发挥已有品牌资产作用和市场影响力的有效途径,但盲目进行品牌延伸会给企业造成严重的后果。文章以文脉原则为视角对品牌延伸战略进行分析,得出了通过符号学,运用文脉进行品牌延伸的一些方法,指出品牌延伸应以文脉原则进行品牌文化的延续与更新,使得延伸品牌与原品牌具有文化上的共通性,这对于提高延伸产品的市场成功率具有重大的现实意义。 相似文献
18.
基于内容和链接分析的主题爬虫策略 总被引:3,自引:1,他引:2
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 相似文献
19.
20.
基于可拓方法的智能策略生成器的研究 总被引:1,自引:0,他引:1
罗珩 《计算机工程与应用》2006,42(25):50-52
提出了解决矛盾问题的智能型集成化可拓策略生成器的设计思路和总体结构框架。系统设计基于综合集成方法的基本思想,遵循信息组织和可拓决策知识的特点,将物元分析法、专家系统、决策支持系统、神经网络有机地组织集成起来,从而快速、灵活地为决策者提供从知识获取、判断推理到创造性思维、策略生成的智能决策支持环境。 相似文献