首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术.  相似文献   

2.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。  相似文献   

3.
互联网的兴起带来了大量的文本信息。在半结构化和非结构化的文本中提取对用户有用的信息,主要采用文本挖掘技术.本文对文本挖掘常用的方法进行比较分析,总结文本挖掘目前主要的应用领域  相似文献   

4.
随着Internet的深入发展及普及应用,网络中可获取的大部分文本信息由来自各种数据源的文档组成.由于电子形式的文本信息飞速增涨,可以获知的文本信息已成海量之势,文本挖掘已经成为信息领域的研究热点,快速得到目标文本成为互联网发展的瓶颈.在动态聚类方法和基于特征属性分类法的基础上提出基于混合模糊聚类理论的文本数据分类系统新模型,在模型基础上探究了一种模糊聚类仿真算法,通过实验验证算法能有效提高文本分类效率及文本分类准确率,从而在实际网络文本挖掘应用中快速得到目标文本,实现因特网文本智能挖掘.  相似文献   

5.
文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。  相似文献   

6.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

7.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

8.
Internet上的文本数据挖掘   总被引:51,自引:3,他引:48  
1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的Internet信息仓库中占信息比重最大的数据类型却缺乏结构化、组织的规整性,并且随意地散布在这个网络的各个角落,还降低了人们对丰富的信息资源的利用效率。数据挖掘是人们对一些巨型数据库中的数据进行分析、使用感到力不从心时而发展出的一门新的技术,它将人工智能技术与数据库技术紧密结合起来,让计算机帮助人们从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本数据挖掘。Internet上缺乏结构化、组织规整性的超巨量文本数据自然让人们想到运用文本数据挖掘技术来帮助提高人们在Internet上检索信息、利用信息的效率。  相似文献   

9.
基于XML的web文本挖掘方法与模型研究   总被引:2,自引:2,他引:0  
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。  相似文献   

10.
Web文本信息的特征获取算法   总被引:17,自引:0,他引:17  
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发展潜在的、有价值知识的一种有效技术,本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本诉处理效率,为文本的分类、聚类以及其它处理提供了简炼的特征表示方法,实验证明,该种处理方法有效地降低了文本特征矢量的维数。  相似文献   

11.
According to efficient markets theory, information is an important factor that affects market performance and serves as a source of first‐hand evidence in decision making, in particular with the rapid rise of Internet technologies in recent years. However, a lack of knowledge and inference ability prevents current decision support systems from processing the wide range of available information. In this paper, we propose a common‐sense knowledge‐supported news model. Compared with previous work, our model is the first to incorporate broad common‐sense knowledge into a decision support system, thereby improving the news analysis process through the application of a graphic random‐walk framework. Prototype and experiments based on Hong Kong stock market data have demonstrated that common‐sense knowledge is an important factor in building financial decision models that incorporate news information.  相似文献   

12.
基于Web的文本挖掘   总被引:22,自引:1,他引:22  
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。  相似文献   

13.
国内针对社会稳定形势的分析工作主要集中在理论、体系、指标构建方面,定量分析研究较少。提出了基于网络敏感信息挖掘、精确语义匹配和量化分析的社会稳定形势监控技术框架。对互联网新闻文本中与社会环境、民族和谐、民生幸福相关的敏感信息进行挖掘,识别热点关键词以及由该词引导的敏感事件的变化趋势,构造敏感信息知识库;建立社会稳定理论模型和计算模型,利用社会调查和迭代反馈分析法习得模型参数,实现社会稳定形势的定量评估。基于该技术构造了原型系统,对新疆、西藏等边疆六省份社会稳定形势定量分析的平均准确率达到73.72%,具有一定决策参考价值。  相似文献   

14.
王俊丽  魏绍臣  管敏 《计算机科学》2015,42(12):1-7, 39
互联网技术的快速发展使得信息的采集和传播速度达到了空前的水平,海量的数据使得人们获取有价值的信息越发困难。自动文摘技术可以从海量的信息中提取出能代表原文重要内容且简洁精练的一段文字,高度压缩文档是解决信息超载问题的有效方法,因此自动文摘技术的研究引起人们越来越多的关注。目前诸如统计分析、机器学习技术以及语言学知识等在已有的自动文摘系统中都有所应用。对基于图排序算法的自动文摘的研究成果进行综述,首先阐述自动文摘以及图排序算法的基本知识,然后重点从图的构建、图排序、句子选择3个方面系统地介绍基于图排序算法的自动文摘的研究现状,最后在分析 已有自动文摘系统的基础上,探讨了基于图排序算法的自动文摘的未来发展方向。  相似文献   

15.
随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,已发展成一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介以及社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响.微博是人类在虚拟网络世界生活的抽象概括和延伸,与一般信息网络不同,微博本身具有大规模、噪音数据多样性、快速传播演化性、非线性、社会媒体性以及多关系等特征,因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别,在相关技术的研究上也带来了更大的挑战.针对微博的新特性,研究了微博近几年的相关研究现状,同时分析了Twitter数据集特征,且总结了未来研究面临的挑战.  相似文献   

16.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

17.
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号