首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
情报数据存在多源异构、关联缺失、重复冗余等问题,有限的数据处理能力已经无法满足不断增长的数据获取能力。事件共指消解任务旨在将互为共指关系的事件识别为同一事件并进行融合处理。对融合多源情报进行研究,提出一种端到端的事件共指消解方法。从情报文本中自动抽取情报事件;编码整个情报文档得到待消解事件的表示,计算每对事件提及的共指得分,以此构建文档内事件共指链;通过算法利用文档内事件共指链融合多源情报文档中的共指事件。实验结果表明,提出方法对消除冗余信息、简化情报文本、融合情报信息具有明显增益。  相似文献   

2.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

3.
文本挖掘及其应用   总被引:4,自引:0,他引:4  
蒋良孝  蔡之华 《现代计算机》2003,37(2):29-31,48
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有用模式和隐藏的信息。本文详细阐述了文本挖掘的功能、文本挖掘的过程、文本挖掘的应用,并在文章最后介绍了文本挖掘的工具及演示实例。  相似文献   

4.
词共现文本主题聚类算法   总被引:1,自引:0,他引:1  
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果.  相似文献   

5.
文章介绍了适合于军事领域中进行情报数据的挖掘方法,建立了军事情报中非结构化文本情报数据处理方法,结合军孥睛报的特点,提出了军事情报中数据挖掘的框架模型,探讨了军事情报挖掘中文文本的方法。实现了对情报文本数据的分词、关键字提取、词频分析、关联分析等。  相似文献   

6.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

7.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。  相似文献   

8.
向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了如何通过计算检索向量和文档向量矩阵的相关度来确定返回的检索内容。  相似文献   

9.
互联网的兴起带来了大量的文本信息。在半结构化和非结构化的文本中提取对用户有用的信息,主要采用文本挖掘技术.本文对文本挖掘常用的方法进行比较分析,总结文本挖掘目前主要的应用领域  相似文献   

10.
词云是一种近年来颇为流行的文本可视化方式,它提取出文本中的关键词并在二维空间上美观地排布,通常用于展示文本内容、辅助文本分析以及吸引读者阅读等.从视觉编码、布局方法和交互方式这3个方面介绍词云的设计空间;将现有的词云设计分为语义词云、形状词云、可编辑词云和多文档词云4类进行概括,并总结了目前对于词云进行实验评价的若干工作;最后分别从语义词云、形状词云、多文档词云和中文词云4个方面分析了词云可视化领域面临的挑战,并对未来工作进行了展望.  相似文献   

11.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

12.
文本挖掘技术研究进展*   总被引:21,自引:0,他引:21  
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。  相似文献   

13.
随着信息技术的不断发展,计算机犯罪问题也不断出现,计算机取证技术是将计算机调查和分析技术应用于对潜在的、有法律效力的证据的确定与获取。数据挖掘技术广泛应用于统计、模式识别、高性能并行计算和可视化研究中。本文对基于数据挖掘技术的计算机取证系统进行了探讨。  相似文献   

14.
CUDA并行计算技术在情报信息研判中的应用   总被引:3,自引:0,他引:3  
文章在研究公安情报信息研判技术的基础上,提出了一种基于CUDA并行计算技术的方法,实现对公安情报信息中文本信息快速分类的方法,实现将CUDA技术的快速计算能力应用到公安情报研判工作中。该文从介绍CUDA技术的概况出发,阐述了基于CUDA并行计算技术的文本分类方法,以及该方法的详细实现过程,解决了高效处理海量文本信息的问题。实验结果证明,CUDA并行计算技术在公安情报信息研判工作中卓有成效。  相似文献   

15.
源于信息挖掘的新型智能化决策支持系统   总被引:2,自引:0,他引:2  
阐述了以结构化数据和复杂类型数据挖掘为主要内容的信息挖掘技术。采用7库(模型库、综合知识库、数据库、方法库、文本库、日志库、多媒体库)与双网(Internet、Intranet)相结合的体系结构,以信息挖掘技术为核心,提出源于信息挖掘的新型智能化决策支持系统(IDSSIM)。旨在解决决策支持系统对半结构化数据、非结构化数据的挖掘处理能力,使之适应目前信息源的多样型和动态变化性的特点,提供更加丰富的决策信息。  相似文献   

16.
配电网电力大数据的三维场景重构是实现数据优化挖掘的关键,提出基于人工智能的配电网电力大数据三维场景可视化分析方法。建立配电网电力大数据三维场景的网格分布结构模型,并进行配电网电力大数据三维场景实时数据监测,根据监测结果进行配电网电力大数据的统计特征分析,对配电网电力大数据三维场景实时数据采用信息融合和模糊层析性分析方法进行信息融合和自适应调度,提取配电网电力大数据的三维可视化分布特征量,采用视觉特征重构技术,实现对配电网电力大数据三维场景可视化重构,在人工智能算法控制下提高电力大数据三维场景可视化重构的精度。仿真结果表明,采用该方法进行配电网电力大数据三维场景可视化重构的精度较高,提高了配电网电力大数据挖掘的效能。  相似文献   

17.
During the last two to three decades, many scientific as well business areas have moved from a situation of a lack of (electronically) readable information into a situation of abundant data. Data warehouses appeared, and the problem of extracting information from large masses of data became more and more important. Also knowledge became a very precious commodity, and its efficient use often makes the difference between success and failure. Finding useful information or patterns in raw data is known in the literature under various names, such as knowledge discovery in data bases, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, etc. Many research areas, such as machine learning, pattern recognition, artificial intelligence, knowledge acquisition for expert systems, data visualization, and others are concerned with these activities, and the terminology used is not unequivocally defined.

In this article, we shall first consider the different interpretations of the notions previously mentioned, and we shall then describe in more detail a recent technology that is very useful for data mining as well as for related areas.  相似文献   

18.
基于Web企业竞争对手情报自动搜集平台   总被引:4,自引:1,他引:4  
从互联网中准确有效及时地自动搜索出需要的信息,是Web信息处理中的一个重要研究课题。本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法基础上,给出基于Web企业竞争对手情报自动收集平台的实现方法,该平台可以有效地从多个企业门户网站中,自动搜索出所需要的目标网页,并能够从目标网页中自动抽取其中多记录信息。本文利用该平台进行了企业人才招聘信息的自动搜索实验。实验结果证实了该平台在信息自动搜集方面的有效性和准确性。  相似文献   

19.
为进一步解决应急预案编制中的规范性问题,本文将文本挖掘技术与预案编制结合,提出了一种改进的DBSCAN算法。该算法采用最小二乘拟合法拟合预案文本相似度曲线,在聚类迭代过程中采用可调整的Eps邻域阈值以提高算法的精度与召回率,从而为政务工作人员在编制预案过程中提供智能参考组方案。仿真结果表明,该算法能够为预案编制提供有效的参考预案组。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号