首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
互联网的普及和飞速发展,使Internet成为世界上最大的信息积聚地,但Internet积聚的信息不同与以往的数据挖掘源,其内容大多是半结构化或非结构化的文本。如何有效的对半结构化或非结构化的文本信息进行挖掘即文本挖掘已成为当今热门的研究方向。  相似文献   

2.
文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。  相似文献   

3.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术.  相似文献   

4.
针对结构化程度差、表达形式各异的文本数据,提出了一种基于文本信息的故障序列模式挖掘算法,用于发掘故障之间的时序关系。为从文本记录的故障信息中挖掘故障规律,首先将文本信息向量化,对故障文本信息进行相似度衡量,将表达相同意义的故障归为一类。在此基础上根据故障特性,提出最大窗口阈值、最小共现度阈值的概念,构建故障序列模式挖掘算法框架。最后对某型飞机文本故障信息进行序列模式挖掘,找出了正确的故障序列关系。实例验证了所提算法是正确有效的。  相似文献   

5.
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。  相似文献   

6.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。  相似文献   

7.
郑波  胡其  林君 《程序员》2013,(7):105-109
淘宝网每天产生千万级的用户输入文本(简称UGC),它们是无结构的,因此与结构化数据相比,更难通过语义分析技术进行信息挖掘。然而,UGC的无结构化,又使得其能够挖掘的信息是无限的。本文将讲述如何利用文本语义分析技术来挖掘有价值的信息,并介绍该技术在淘宝网的应用情况。  相似文献   

8.
文本知识发现:基于信息抽取的文本挖掘   总被引:11,自引:0,他引:11  
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知  相似文献   

9.
电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。本文基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。  相似文献   

10.
王娜  李云松 《微机发展》2006,16(1):114-116
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。  相似文献   

11.
目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器.该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差.从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用.为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图...  相似文献   

12.
电信大数据中包含了大量的非结构化文本数据,无法通过常规的方法进行信息挖掘,在此情况下文本挖掘可以更好地实现对文本数据的分析挖掘。提出了基于文本的新词识别算法和命名实体识别算法,从而有效地分析用户投诉文本内容并判断其所属类别,并且从用户上网文本信息中识别出其终端型号,为电信行业提供更好的用户支撑和用户体验。最后,对模型的实际应用表明,所提方法对电信投诉文本数据的识别是高效的。  相似文献   

13.
Web文本信息的特征获取算法   总被引:17,自引:0,他引:17  
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发展潜在的、有价值知识的一种有效技术,本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本诉处理效率,为文本的分类、聚类以及其它处理提供了简炼的特征表示方法,实验证明,该种处理方法有效地降低了文本特征矢量的维数。  相似文献   

14.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

15.
Web文本挖掘系统及其分类算法的研究与实现   总被引:9,自引:0,他引:9  
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

16.
面向Web的文本信息挖掘研究   总被引:2,自引:0,他引:2       下载免费PDF全文
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地获取所需要的信息。基于Web的文本挖掘是数据挖掘的重要组成部分,探讨了Web文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

17.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

18.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

19.
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。  相似文献   

20.
建立自然灾害预测模型,对自然灾害进行预测和分析,有利于提升防灾减灾的技术水平.基于关联规则和Web文本挖掘技术提出自然灾害预测系统的设计方案及实现方法.该系统利用成熟开源的爬虫框架从权威的灾害信息发布平台中定向抓取非结构化的自然灾害信息,通过中文分词技术进行数据清理将其整理成结构化的自然灾害数据库,并利用改进的关联规则算法从中挖掘出自然灾害事件的关联规则,进而可通过实时监控关联规则的前端信息,实现对自然灾害事件的预测.试运行结果表明该系统能有效挖掘出自然灾害信息的关联规则,并具有较高置信度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号