首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
基于网格的Multi_Agent web文本挖掘系统   总被引:6,自引:1,他引:6  
企业决策对web文本挖掘的速度和准确性的要求越来越高。本文提出了一个基于网格技术的能够并行处理的Mul-ti_Agentweb文本挖掘系统。并讨论了该系统提供文本挖掘服务的方法和步骤。  相似文献   

2.
基于XML的web文本挖掘方法与模型研究   总被引:2,自引:2,他引:0  
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。  相似文献   

3.
建立自动化数据采集系统,通过自动搜索web信息及文本挖掘快速采集精神与行为相关基因信息,构建了精神与行为相关基因web数据库.采集系统和web数据库均具有可扩展性和可移植性,为其他领域相关基因数据库的构建提供了一种通用、高效的方法.  相似文献   

4.
在信息化时代,数据是企业生产和运行的基础,其质量好坏直接影响着企业的生存和效益。Internet已经成为一个巨大的数据仓库,为了确保我们所利用的web文本资源的高质量,本文介绍了利用web内容离群点挖掘技术审查Web文本内容,提高数据质量的方法,并且取得了较好的实验结果。  相似文献   

5.
基于危险理论的web文本挖掘研究   总被引:1,自引:0,他引:1  
李士勇  梁家荣  唐志刚 《微计算机信息》2007,23(30):170-171,189
web挖掘是处理Internet环境下数据挖掘的一个重要方向,本文在比较研究传统web挖掘方法的基础上提出了一种基于危险理论的web挖掘新方法,该方法具有很强的自适应性和更新能力,为web挖掘领域提供了一种新的研究思路.  相似文献   

6.
为了对infemet上的半结构化数据进行分析,发现其内在的关联模式,论文提出了基于小波理论的web挖掘模型,该模型支持web挖掘的全过程。Web挖掘模型由数据采集器、预处理器、数据约简、挖掘综合器、挖掘方法库和系统维护六部分组成。该模型应用小波聚类分析方法,实现了对经过预处理的Web数据进行约筒的功能。去除了一些冗余的无意义的数据,优化了系统的性能,提高了web挖掘质量。  相似文献   

7.
基于加权类轴的Web文本分类方法研究   总被引:1,自引:0,他引:1  
为了更有效的组织Intemet上丰富的信息资源,通过分析传统的近邻文本分类方法技术以及web文本的特点,提出了一种新的简单有效的网页分类方法。该方法充分利用了web文本的结构信息进行特征词加权,以类轴向量为核心构建分类器。实验表明,此方法具有较高的准确率和召回率。  相似文献   

8.
基于web日志的连续频繁路径挖掘算法   总被引:1,自引:0,他引:1  
频繁模式挖掘已成为web使用挖掘的研究热点,本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出web日志中连续、重复的浏览路径,最后在web浏览树上进行分析挖掘频繁浏览路径.该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理.  相似文献   

9.
文本自动分类关键技术研究   总被引:1,自引:0,他引:1  
为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类.根据测试语料分别对中文分词模块和网页文本分类模块性能进行测试,实验结果表明UJS-Classifier在分词的歧义切分、网页分类的性能及准确率都有一定的提高.  相似文献   

10.
一个基于朴素贝叶斯方法的web文本分类系统:WebCAT   总被引:2,自引:0,他引:2  
如果缺乏好的对文本自动进行索引及摘要的工具,要从Internet浩瀚的文本中检索有用信息是很困难的。因此,文本分类成为信息检索(InformationRetrieval)的重要组成部分。朴素贝叶斯分类是应用统计理论进行文本分类的有效方法之一。该文结合web文本的特点使用朴素贝叶斯分类器实现了一个web文本分类系统WebCAT,并获得了很好的分类结果。  相似文献   

11.
该文介绍了Web文本挖掘的概念和一般处理过程,着重就Web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究,同时对不同方法进行了初步比较。  相似文献   

12.
KDD中的特征选择   总被引:1,自引:0,他引:1  
随着数据库、数据仓库技术的发展,各种数据处理和分析工具不断出现,数据库中的知识发现(简称KDD)就是现在受到研究人员和软件开发商广泛关注的一种数据分析方法。文章主要针对KDD的数据预处理阶段的一类重要问题———分类问题,描述了特征选择的概念,分析了它在KDD中应用的重要性和必要性,并针对KDD的特点介绍现有的特征选择的各种方法并进行归纳,为下一步的研究和开发提供一个有益的框架。  相似文献   

13.
李伟湋  贾修一 《计算机应用》2010,30(6):1530-1532
针对数据挖掘中的特征选择问题,依据Hellinger距离的特性,研究了两种Hellinger距离的定义方式,提出了基于Hellinger距离的特征选择方法,设计了两种相应的算法。不同数据集上的实验结果表明了新算法选择的特征的有效性。与其他特征选择算法的对比可发现:这两种算法选择的特征个数少且对C4.5分类精度较好。  相似文献   

14.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。  相似文献   

15.
分类问题的一种可伸缩特征选择算法   总被引:4,自引:0,他引:4  
张巍  邹翔  吴晓如 《计算机学报》2005,28(7):1223-1229
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.  相似文献   

16.
基于信息增益的多标签特征选择算法   总被引:1,自引:0,他引:1  
多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。  相似文献   

17.
特征选择一直是机器学习和数据挖掘中的一个重要问题。在多标签学习任务中,数据集中的每个样本都与多个标签相关联,标签与标签之间通常也是相关的。在多标签高维数据分析中,为降低特征维数和提高分类性能,研究者们提出了多标签特征选择方法。系统综述了多标签特征选择的研究进展。在介绍多标签分类以及评价准则之后,详细分析了多标签特征选择的三类方法,即过滤式算法、包裹式算法和嵌入式算法,对多标签特征选择未来的研究提出展望。  相似文献   

18.
中文Web文本的特征获取与分类   总被引:16,自引:0,他引:16  
许建潮  胡明 《计算机工程》2005,31(8):24-25,39
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。  相似文献   

19.
Web文本挖掘中的特征选取方法研究   总被引:11,自引:0,他引:11  
和亚丽  陈立潮 《计算机工程》2005,31(5):181-182,190
研究了Web文本挖掘中的高维特征选取问题,对常见的评估函数法、主成分分析法、模拟退火法等特征选取和降维算法进行了理论分析与性能比较,通过实验对各种算法的优劣性及适用性进行了讨论。旨在通过降维处理来解决高维空间的文本挖掘问题。  相似文献   

20.
数据挖掘中如何有效地从高维特征空间选择最优特征子集,很大程度上影响模型的预测结果,基于此本文提出一种复合适应性函数、多特征组合搜索的自适应性遗传算法。算法依据统计学原理对原始特征先行过滤构建特征候选集,使用多模型融合的交叉验证结果作为适应性函数以提高每轮进化的适应值,轮盘赌算法、定长基因段交叉算法、随机基因位点变异算法分别构成选择算子、交叉算子和变异算子。通过实验对比表明该遗传算法具有一定的稳定性和有效性,能够在原始特征空间中启发性的选择最优特征子集,从而提高数值型预测准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号