首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
Web文本挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。本文在分析Web挖掘相关技术的基础上。将Web文本挖掘技术与远程教育相结合,提出了一种基于Web文本挖掘的远程教育的个性化服务模型。  相似文献   

2.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

3.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

4.
随着Internet的发展,Web挖掘技术越来越重要,其中的Web信息抽取技术逐渐成为热点,逐渐成为Web挖掘技术的关键技术之一,对Web信息抽取技术的深入研究也为构建更好的面向主题的搜索引擎提供了思路.文中对Web信息抽取的现有技术以及现有技术存在的问题进行了详细的论述.根据Web信息抽取的原理,依据软件工程的观点对Web信息抽取技术提出了具有指导意义的8条启发式规则.在这些规则的指导下,着重阐述了Web信息抽取中的基于结构和内容的信息抽取.通过理论分析及相应的实验说明所提出的8条规则对Web信息抽取具有良好的指导意义.  相似文献   

5.
朱德利 《计算机工程与设计》2006,27(23):4447-4449,4460
XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容构成和内容的超链关系。提出基于XML的Web结构挖掘系统的实现过程,解决了XML文件通过标准接口读入到挖掘程序的关键技术。  相似文献   

6.
基于Web挖掘的网页清洗技术   总被引:1,自引:0,他引:1  
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。  相似文献   

7.
Web数据挖掘系统的设计及实现研究   总被引:9,自引:4,他引:9  
在全球信息化进程中,信息超载已经成为一个大问题。Web上信息虽多,但想找到需要的信息却很困难。人们通过点击和搜索引擎与Web进行交互,但是都不能从中准确快捷地获取需要的信息,Web数据挖掘技术就是解决此问题的好方法。讲述了Web数据挖掘的基本理论,根据挖掘对象的不同将其划分为Web内容挖掘、Web链接结构挖掘和Web访问信息挖掘;利用HTML网页的特殊结构性质,提出了一种Web数据挖掘系统的通用框架,并讨论了一些实现的具体技术。  相似文献   

8.
Web信息抽取已经成为下一代Web应用的一个研究热点.在分析了当前Web信息抽取技术面临问题的基础上,结合网格技术的发展,提出了一个基于网格的Web信息抽取系统(GWIES),并给出了GWIES的设计方案,描述了系统实现的关键技术.  相似文献   

9.
潘静  饶若楠 《计算机工程》2004,30(12):136-138
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web本挖掘技术的分析。同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web本挖掘的相关技术实现在Web上获取信息的应用。  相似文献   

10.
宁彬 《福建电脑》2006,(8):127-127,130
针对用户特性向用户提供个性化服务将是web服务的发展趋势,本文从Web个性化服务的本质出发,详细地研究了实现Web个性化服务的关键技术:Web挖掘技术和信息推荐技术,并在此基础上设计了一个基于Web挖掘的个性化服务系统原型。  相似文献   

11.
随着互联网的快速发展,Web上的数据飞速增长。面对海量的数据,如何从中找出有价值的信息,运用到商业决策的制定中,已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类,论述了在电子商务中web挖掘的过程和方法,揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统,系统面对多电子商务平台,实现了统一的数据收集和预处理过程,对用户的访问日志进行分析,从网站、商品类别、商品等角度进行数据分析,并又对用户的访问数据进行挖掘,从这些数据中发现潜在的规律,把握用户动态,帮助企业制定商业决策,使电子商务更具个性化和针对性。  相似文献   

12.
随着网络通信技术的快速发展与成本的不断降低,越来越多的信息都被发布到网络上.但是,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个新的课题.介绍了Web数据挖掘的分类以及当前的发展状况,并将XML技术应用在Web数据挖掘中,介绍了一个自动挖掘的模型,应用于股票信息自动采集系统,展示了Web数据自动挖掘方法的可行性与优越性.同时,也指出了Web数据自动挖掘尚存的不足及其发展前景.  相似文献   

13.
随着Web Services技术的不断成熟和发展,存储在UDDI Registry中的Web Service信息将会变得越来越庞大,如何从UDDI Registry浩如烟海的信息资源中为用户快速、方便、准确地检索出满足需求的Web Service,将变得十分重要.而传统的基于关键词匹配的检索技术已不能满足用户准确而全面定位信息的要求.因此,以Web Service的文本描述信息为研究对象,运用文本挖掘相关方法,构建出用户概念空间,对用户提出的查询要求进行概念检索.着重介绍了用户概念空间的构建方法以及概念检索的匹配运算过程,并给出了应用于UDDI Registry的一种智能检索引擎系统模型.  相似文献   

14.
随着互联网的飞速发展和Web应用系统的广泛应用,Web挖掘得到了人们越来越多的研究。从Web日志中发现和分析出用户的有用信息的Web日志挖掘已成为研究热点。很多基于关联规则的方法已经被应用于Web挖掘中。运用基于差别矩阵的粗糙集提取Web日志中的关联规则,并将生成的关联规则集用于用户行为的预测。实验结果说明该方法的有效性和实用性。  相似文献   

15.
数据挖掘技术自上世纪80年代初产生以来,随着计算机技术的发展与普及,带动了它在商业领域中的应用,有助于企业从爆炸性增长的数据中,挖掘出与经营决策相关的信息与知识,提高决策的针对性和有效性,日益受到企业界的关注。文章阐述了数据挖掘的基本概念、方法与工具,分析了数据挖掘技术对提高企业竞争力的重要作用与意义,探讨了数据挖掘技术在企业经营管理中的应用。  相似文献   

16.
主要以商业领域的需求和应用为背景,构建一个智能化的笔记本电脑评论分析系统.该系统对国内大型购物网站上非结构化、自由式的笔记本电脑评论文本进行情感倾向识别和产品特征归纳,实现了利用数据挖掘和商务智能的手段分析网络消费者对特定产品的反馈,帮助企业管理人员了解特定产品的市场需求、制定商业决策.实验结果证明该系统能够较准确的得出分类结果并归纳出产品特征.  相似文献   

17.
如何从海量的Web数据中发现有用的知识是一个迫切需要研究的课题,因此,Web挖掘应运而生,成为一个全新的研究领域。Web挖掘就是从Web文档和Web活动中抽取潜在的有用模式和隐藏信息。随着电子商务的发展,Web挖掘进入了一个新的应用领域,介绍了Web挖掘技术在电子商务中的具体应用,运用Web挖掘技术对Web数据进行挖掘,了解客户的行为,从而调整站点结构、市场策略等,使电子商务活动具有针对性。  相似文献   

18.
邓健爽  郑启伦  彭宏 《计算机应用》2006,26(5):1134-1136
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

19.
Distributed data mining for e-business   总被引:2,自引:1,他引:1  
In the internet-based e-business environment, most business data are distributed, heterogeneous and private. To achieve true business intelligence, mining large amounts of distributed data is necessary. Through a thorough literature review, this paper identifies four main issues in distributed data mining (DDM) systems for e-business and classifies modern DDM systems into three classes with representative samples. To address these identified issues, this paper proposes a novel DDM model named DRHPDM (Data source Relevance-based Hierarchical Parallel Distributed data mining Model). In addition, to improve the quality of the final result, the data sources are divided into a centralized mining layer and a distributed mining layer, according to their relevance. To improve the openness, cross-platform ability, and intelligence of the DDM system, web service and multi-agent technologies are adopted. The feasibility of DRHPDM was verified by building a prototype system and applying it to a web usage mining scenario.  相似文献   

20.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号