共查询到20条相似文献,搜索用时 312 毫秒
1.
基于网格的Multi_Agent web文本挖掘系统 总被引:6,自引:1,他引:6
企业决策对web文本挖掘的速度和准确性的要求越来越高。本文提出了一个基于网格技术的能够并行处理的Mul-ti_Agentweb文本挖掘系统。并讨论了该系统提供文本挖掘服务的方法和步骤。 相似文献
2.
基于XML的web文本挖掘方法与模型研究 总被引:2,自引:2,他引:0
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。 相似文献
3.
建立自动化数据采集系统,通过自动搜索web信息及文本挖掘快速采集精神与行为相关基因信息,构建了精神与行为相关基因web数据库.采集系统和web数据库均具有可扩展性和可移植性,为其他领域相关基因数据库的构建提供了一种通用、高效的方法. 相似文献
4.
在信息化时代,数据是企业生产和运行的基础,其质量好坏直接影响着企业的生存和效益。Internet已经成为一个巨大的数据仓库,为了确保我们所利用的web文本资源的高质量,本文介绍了利用web内容离群点挖掘技术审查Web文本内容,提高数据质量的方法,并且取得了较好的实验结果。 相似文献
5.
6.
为了对infemet上的半结构化数据进行分析,发现其内在的关联模式,论文提出了基于小波理论的web挖掘模型,该模型支持web挖掘的全过程。Web挖掘模型由数据采集器、预处理器、数据约简、挖掘综合器、挖掘方法库和系统维护六部分组成。该模型应用小波聚类分析方法,实现了对经过预处理的Web数据进行约筒的功能。去除了一些冗余的无意义的数据,优化了系统的性能,提高了web挖掘质量。 相似文献
7.
基于加权类轴的Web文本分类方法研究 总被引:1,自引:0,他引:1
为了更有效的组织Intemet上丰富的信息资源,通过分析传统的近邻文本分类方法技术以及web文本的特点,提出了一种新的简单有效的网页分类方法。该方法充分利用了web文本的结构信息进行特征词加权,以类轴向量为核心构建分类器。实验表明,此方法具有较高的准确率和召回率。 相似文献
8.
基于web日志的连续频繁路径挖掘算法 总被引:1,自引:0,他引:1
频繁模式挖掘已成为web使用挖掘的研究热点,本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出web日志中连续、重复的浏览路径,最后在web浏览树上进行分析挖掘频繁浏览路径.该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理. 相似文献
9.
10.
一个基于朴素贝叶斯方法的web文本分类系统:WebCAT 总被引:2,自引:0,他引:2
余芳 《计算机工程与应用》2004,40(13):195-197
如果缺乏好的对文本自动进行索引及摘要的工具,要从Internet浩瀚的文本中检索有用信息是很困难的。因此,文本分类成为信息检索(InformationRetrieval)的重要组成部分。朴素贝叶斯分类是应用统计理论进行文本分类的有效方法之一。该文结合web文本的特点使用朴素贝叶斯分类器实现了一个web文本分类系统WebCAT,并获得了很好的分类结果。 相似文献
11.
该文介绍了Web文本挖掘的概念和一般处理过程,着重就Web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究,同时对不同方法进行了初步比较。 相似文献
12.
13.
针对数据挖掘中的特征选择问题,依据Hellinger距离的特性,研究了两种Hellinger距离的定义方式,提出了基于Hellinger距离的特征选择方法,设计了两种相应的算法。不同数据集上的实验结果表明了新算法选择的特征的有效性。与其他特征选择算法的对比可发现:这两种算法选择的特征个数少且对C4.5分类精度较好。 相似文献
14.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。 相似文献
15.
分类问题的一种可伸缩特征选择算法 总被引:4,自引:0,他引:4
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效. 相似文献
16.
17.
特征选择一直是机器学习和数据挖掘中的一个重要问题。在多标签学习任务中,数据集中的每个样本都与多个标签相关联,标签与标签之间通常也是相关的。在多标签高维数据分析中,为降低特征维数和提高分类性能,研究者们提出了多标签特征选择方法。系统综述了多标签特征选择的研究进展。在介绍多标签分类以及评价准则之后,详细分析了多标签特征选择的三类方法,即过滤式算法、包裹式算法和嵌入式算法,对多标签特征选择未来的研究提出展望。 相似文献
18.
中文Web文本的特征获取与分类 总被引:16,自引:0,他引:16
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。 相似文献
19.
Web文本挖掘中的特征选取方法研究 总被引:11,自引:0,他引:11
研究了Web文本挖掘中的高维特征选取问题,对常见的评估函数法、主成分分析法、模拟退火法等特征选取和降维算法进行了理论分析与性能比较,通过实验对各种算法的优劣性及适用性进行了讨论。旨在通过降维处理来解决高维空间的文本挖掘问题。 相似文献