首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
Web文本挖掘系统及其关键技术研究   总被引:10,自引:0,他引:10  
随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻参照法模型、基于隐马尔科夫模型(HMM)的信息抽取、机器学习方法,进行了研究和探讨,并且给出了基于信息抽取的文本挖掘系统的设计实现和下一步的研究重点。  相似文献   

2.
Web文本挖掘     
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。  相似文献   

3.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源。如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生。本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究。  相似文献   

4.
基于Multi-Agent的Web文本挖掘系统   总被引:1,自引:0,他引:1  
基于Multi-Agent(多智体)技术的Web文本挖掘是从海量信息源尤其是Web文本信息源中快速、有效地获取知识所提出的一个新型研究领域。本论文给出了基于Multi-Agent技术的Web文本挖掘系统模型,并利用Multi-Agent技术实现了Web数据预处理、数据的挖掘、知识的获取、知识的评价与表示等功能。  相似文献   

5.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源.如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生.本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究.  相似文献   

6.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

7.
Web文本挖掘技术研究   总被引:221,自引:1,他引:220  
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了  相似文献   

8.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。  相似文献   

9.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术.  相似文献   

10.
Web挖掘系统的设计与实现   总被引:3,自引:2,他引:3  
陈建华  包煊 《计算机工程》2002,28(8):141-142,151
介绍了Web挖掘理论,包括Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,并简单介绍了实现Web文本挖掘系统WTMiner(Web Text Miner)的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字Hash和二分查找了 从而提高了分词速度,分类器的设计中考虑到SVM的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。  相似文献   

11.
基于支持向量机的中文文本自动分类研究   总被引:2,自引:0,他引:2  
首先对文本提取特征向量,再利用词语相似度求出文本特征子集,由支持向量机进行文本分类,实现了一个中文文本自动分类系统,并对该系统进行了针对SVM大规模真实文本的试验测试。试验表明,该方法的系统的招回率较低,而准确率较高,取得了令人满意的结果。  相似文献   

12.
提出了一种将颜色边缘与SVM相结合的文本定位与提取的方法。首先根据文本的颜色边缘特征进行粗筛选,获得文本候选区;然后使用SVM分类器进行文本与非文本分类,实现文本区域定位与提取。实验表明,该方法取得了良好的效果。  相似文献   

13.
随着Internet应用的逐渐普及,WWW己经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。快速、准确地发现定题领域中的信息,并自动发布在指定的网站栏目中,是广大网站管理员和用户所需的。论文介绍了一种可定题的网络信息自动过滤及发布系统,并说明系统的设计思想,关键技术和实现。  相似文献   

14.
Web内容挖掘技术研究   总被引:10,自引:4,他引:10  
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。  相似文献   

15.
单类支持向量机是一种用途广泛的分类器,它能够应用于负类样本难以收集的领域中,如入侵检测、故障检测与诊断和遥感数据分类等领域。因此无论在理论研究还是实际应用方面,单类支持向量机受到越来越多的关注。回顾单类支持向量机的两种主要方法,阐述各种关于单类支持向量机的改进,包括使用未标号数据、选择样本点以及修改优化目标。对单类支持向量机做了总结。  相似文献   

16.
武帅  王雄  段云峰 《微计算机信息》2007,23(12):163-165
使用支持向量机(SVM,Support Vector Machine)数据挖掘方法对移动通信行业客户流失倾向进行预测,对支持向量机同决策树算法预测的结果进行对比,结果表明支持向量机对本文所选取的属性数据具有更强的分类能力,而且在不同训练数据规模情况下预测模型有较好的稳定性。实验证实,运用本研究模型选取全体客户的22.31%,可以预测出50.07%流失的客户,表明本研究中提出的预测模型具有实际应用价值。  相似文献   

17.
一种改进的SVM文本分类算法   总被引:2,自引:0,他引:2  
在研究基于支持向量机进行文本分类一般步骤的基础上,针对Key-Substring-Group文本分类算法存在非线性支持向量机对核函数和参数C的强依赖的问题,用欧氏距离代替支持向量机训练得到的分类决策面进行分类决策,对文本分类算法进行改进。通过对比试验,发现分类效果不会随着核函数及参数C的变化而有明显的波动。  相似文献   

18.
针对手机垃圾短息难以治理的现象,提出一种基于行为识别和SVM的短信过滤方法。综合行为识别和SVM的特点,从运营商短信业务支撑中心方面实施对垃圾短信的过滤,并对SVM方法进行了相关实验。实验表明,SVM方法在短信拦截过滤方面有着较好的效果。  相似文献   

19.
基于KNN的Web文本分类方法的研究   总被引:1,自引:0,他引:1  
为了更有效地组织Internet 上丰富的信息资源, 通过分析Web 文本的特点,提出了基于KNN 的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号