共查询到20条相似文献,搜索用时 62 毫秒
1.
文本知识发现:基于信息抽取的文本挖掘 总被引:11,自引:0,他引:11
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知 相似文献
2.
为解决常规的群体投诉信息分析系统存在的信息分析耗时较长问题,保证信息分析的实时性,本文基于文本挖掘设计新的群体投诉信息分析系统。硬件部分设计了MT48LC信息存储芯片和TIAM3351BZCE60微处理器;软件部分首先构建群体投诉信息分析架构,其次基于文本挖掘设计群体投诉信息分析算法,最后设计群体投诉信息功能模块,实现群体投诉信息分析。系统测试结果表明,设计的群体投诉信息分析系统的信息分析耗时较短,证明设计的群体投诉信息分析系统性能良好,能够满足群体投诉信息分析的实时性需求,有一定的应用价值,为后续群体投诉信息集中处理作出了一定的贡献。 相似文献
3.
现有的地理位置信息服务大都建立在地图测绘的基础上,随着移动互联网的迅速发展,利用互联网中包含的位置信息,成为了地理位置信息来源的一个新渠道.现有的地理位置信息挖掘算法主要是利用关键字匹配进行主题挖掘,然而在网络条件下的地理信息常常出现信息的错误和遗漏等情况,使得现有的基于关键字匹配的位置信息挖掘算法准确率迅速降低.针对这一问题,论文引入基于多约束的地理信息推理模型,将从网络中获取的多种标准化的信息作为约束条件进行推理,提升位置信息挖掘算法的准确性.实验表明论文提出的基于多约束推理的挖掘算法相比现有算法在地理信息准确度方面有明显提升. 相似文献
4.
5.
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。 相似文献
6.
一种基于粗集的文本数据特征信息的挖掘方法 总被引:2,自引:0,他引:2
1.引言随着Internet的飞速发展,人们的信息交流越来越多地依赖于网络,人们在网上发表自己的意见和见解、相互讨论各种问题、交流情感和思想。在网上传输的这些数据中,大量涉及到的是文本数据,网络应用的普及使得文本数据呈现出高速膨胀的态势,面对浩瀚的文本大海,人们迫切需要快速、准确地从需要的文本数据中了解其观点、思想或热点问题等等。例如,在远程教育中,教师可能面对的是成百上千个学生,教师希望快速地从学生的讨论和交谈中寻找学生集中关心的问题,以便及时回答和调整教学。又如,出于国家安全的考虑,需要对类似于BBS的公众论坛的文档进行鉴别,以便进行有效地监督和管理。以上问题所涉及的都需要高效、快捷地对文本数据进行特定的信息挖掘。 相似文献
7.
基于网格的Multi_Agent web文本挖掘系统 总被引:6,自引:1,他引:6
企业决策对web文本挖掘的速度和准确性的要求越来越高。本文提出了一个基于网格技术的能够并行处理的Mul-ti_Agentweb文本挖掘系统。并讨论了该系统提供文本挖掘服务的方法和步骤。 相似文献
8.
基于XML的web文本挖掘方法与模型研究 总被引:2,自引:2,他引:0
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。 相似文献
9.
科技管理领域热点主题抽取过程主要历经文本挖掘技术中的数据采集与清洗、信息抽取、主题分析三个阶段。其中,热点主题抽取采用TF-IDF信息抽取算法,主题聚类采用共现方法中的合并聚类。通过热点主题抽取、趋势分析和聚类分析,可以实现领域热点工作的提前预测和科学决策,有助于推动政务领域信息的智能化和知识化。 相似文献
10.
11.
Clustering text data streams is an important issue in data mining community and has a number of applica- tions such as news group filtering,text crawling,document organization and topic detection and tracing etc.However, most methods axe similaxity-based approaches and only use the TF*IDF scheme to represent the semantics of text data and often lead to poor clustering quality.Recently,researchers argue that semantic smoothing model is more efficient than the existing TF*IDF scheme for improving text clus... 相似文献
12.
13.
随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普通,例如传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用。这些应用的特征是环境配备有多个分布式计算节点;这些节点往往临近于数据源;分析和监控这种环境下的数据,往往需要对挖掘任务、数据分布、数据流入速率和挖掘方法有一定的了解。综述了分布式数据流挖掘的当前进展概况,并展望了未来可能的、潜在的专题研究方向。 相似文献
14.
15.
16.
多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能. 相似文献
17.
18.
随着信息技术、数据库技术、网络技术的发展,各行各业均存储了大量的文本数据,怎样从这些文本数据中发掘有价值的信息和知识成为人们急需解决的问题。提出基于Maximum Likelihood与HMM的文本挖掘方法,利用Maximum Likelihood构建隐马尔可夫模型,对论文条目进行特定信息的发掘,并克服了实验过程中“零概率”的缺陷。实验结果表明准确率平均达到0.9,召回率平均达到0.85,从理论和实践上证明该方法是有效的。 相似文献
19.
20.
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献