首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
关于分布式、异构、历史遗留数据的数据挖掘研究   总被引:3,自引:0,他引:3  
主要研究在分布式、异构和历史遗留数据库中进行数据挖掘的方法和策略。首先讨论分布式数据库的挖掘方法,在此基础上进行扩展讨论异构数据源的数据挖掘方法;最后,讨论历史遗留数据库的挖掘方法。  相似文献   

2.
本文在研究文本数据挖掘技术发展基础上,对文本数据挖掘系统设计进行深入分析,在此基础上,论文设计实现文本数据挖掘系统原型方案,该方案将文本分析、数据库和文本数据挖掘技术有机地结合起来,实现了文本特征值提取、特征值清理入库和关联规则挖掘等功能。  相似文献   

3.
Web内容挖掘技术研究   总被引:10,自引:4,他引:10  
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。  相似文献   

4.
文本挖掘技术研究进展   总被引:21,自引:0,他引:21  
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。  相似文献   

5.
海量文本数据库中的高效并行频繁项集挖掘方法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对大规模文本数据库中频繁项集挖掘的特殊要求,本文提出了一种新的并行挖掘算法parFIM。parFIM以一种简单的数据结构H-Struct为基础,对数据进行纵向划分从而实现并行挖掘。算法同时考虑了去除短模式和减少重复模式。实验结果表明,parFIM能够很好地适用于大规模文本数据库中的频繁项集挖掘任务。  相似文献   

6.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。  相似文献   

7.
本文在分析Web数据挖掘相关理论基础上,深入探讨XML在Web数据挖掘中应用问题,利用XML和Web数据挖掘技术的结合点,提出建立基于XML的Web文本数据挖掘模型,为如何从大量的Web资源中获得有价值的知识提供了一种可行的解决方案。  相似文献   

8.
为解决在互联网文本信息爆炸性增长的前提下,在大规模文本数据中如何发现隐含的、有价值的潜在知识的问题,提出基于多层次文本聚类的文本知识挖掘方法,针对不同规模的文本数据进行不同粒度的聚类,实现不同层次知识的挖掘。针对最广义层次的文本知识挖掘可实现各主题事务划分,针对子级分类数据的文本知识挖掘可发现下一层次主题分类,针对自定义层次的文本知识挖掘可发现该事件中存在的具体细节。对诉求实际数据的分析结果表明,该方法可在所有诉求数据中挖掘出各种诉求主题,精确挖掘出其中的细节问题,为管理者提供数据和决策支持,提高服务效率。  相似文献   

9.
Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点.而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型的各个组成部分,给出了该模型的特点.  相似文献   

10.
文本挖掘及其关键技术与方法   总被引:29,自引:0,他引:29  
从1969年美国国防部的计算机网络ARPANET起步,至今已有32年历史的Internet,已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务系统,为其用户提供了极具价值的、巨大的数据资料。在数字图书馆和Internet上,在线可获得的信息量呈指数级增长,导致了信息爆炸。WWW以超文本的形式呈现给用户,一个网页里包含了多种不同的数据类型,其中最主要的信息源就是文本数据。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知  相似文献   

11.
Web挖掘在现代远程教育中的应用   总被引:5,自引:1,他引:5  
梁开健 《微机发展》2005,15(8):101-104
从Web上异质的、非结构化的数据中发现有用的知识或者模式,是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。文章介绍了Web挖掘基本情况。在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。  相似文献   

12.
Email is one of the most popular forms of communication nowadays, mainly due to its efficiency, low cost, and compatibility of diversified types of information. In order to facilitate better usage of emails and explore business potentials in emailing, various data mining techniques have been applied on email data. In this paper, we present a brief survey of the major research efforts on email mining. To emphasize the differences between email mining and general text mining, we organize our survey on five major email mining tasks, namely spam detection, email categorization, contact analysis, email network property analysis and email visualization. Those tasks are inherently incorporated into various usages of emails. We systematically review the commonly used techniques and also discuss the related software tools available.  相似文献   

13.
This study analyses the online questions and chat messages automatically recorded by a live video streaming (LVS) system using data mining and text mining techniques. We apply data mining and text mining techniques to analyze two different datasets and then conducted an in-depth correlation analysis for two educational courses with the most online questions and chat messages respectively. The study found the discrepancies as well as similarities in the students’ patterns and themes of participation between online questions (student–instructor interaction) and online chat messages (student–students interaction or peer interaction). The results also identify disciplinary differences in students’ online participation. A correlation is found between the number of online questions students asked and students’ final grades. The data suggests that a combination of using data mining and text mining techniques for a large amount of online learning data can yield considerable insights and reveal valuable patterns in students’ learning behaviors. Limitations with data and text mining were also revealed and discussed in the paper.  相似文献   

14.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

15.
文本挖掘及其应用   总被引:4,自引:0,他引:4  
蒋良孝  蔡之华 《现代计算机》2003,37(2):29-31,48
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有用模式和隐藏的信息。本文详细阐述了文本挖掘的功能、文本挖掘的过程、文本挖掘的应用,并在文章最后介绍了文本挖掘的工具及演示实例。  相似文献   

16.
Digitalization has changed the way of information processing, and new techniques of legal data processing are evolving. Text mining helps to analyze and search different court cases available in the form of digital text documents to extract case reasoning and related data. This sort of case processing helps professionals and researchers to refer the previous case with more accuracy in reduced time. The rapid development of judicial ontologies seems to deliver interesting problem solving to legal knowledge formalization. Mining context information through ontologies from corpora is a challenging and interesting field. This research paper presents a three tier contextual text mining framework through ontologies for judicial corpora. This framework comprises on the judicial corpus, text mining processing resources and ontologies for mining contextual text from corpora to make text and data mining more reliable and fast. A top-down ontology construction approach has been adopted in this paper. The judicial corpus has been selected with a sufficient dataset to process and evaluate the results. The experimental results and evaluations show significant improvements in comparison with the available techniques.  相似文献   

17.
提出了将知网(HowNet),领域词典同聚类挖掘模型相结合的方法,解决传统的聚类挖掘缺乏处理深层语义信息的问题.该方法能够很方便地得到知识支持,更好地将语义相关的文本聚集到一起,增强了文本特征表示能力,从而实现文本聚类在某领域上的基于语义的挖掘.  相似文献   

18.
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念,给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。  相似文献   

19.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。  相似文献   

20.
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念.给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号