共查询到20条相似文献,搜索用时 46 毫秒
1.
数据挖掘是当前数据库和信息决策领域的研究热点.首先介绍了数据挖掘的基本涵义和主要方法,然后阐述数据挖掘技术在素质教育中的应用. 相似文献
2.
分析了文本控制技术目前在电子政务领域中的作用,阐述文本控制技术中文本的分类及多文档结构文本控制技术中的主要关键技术,总结多文档结构文本控制技术在电子政务、电子商务以及企业ERP领域的应用前景。 相似文献
3.
基于概念获取的多文档主题划分研究 总被引:1,自引:0,他引:1
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值.当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果.本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题.实验结果表明该方法对多个相关文档的主题划分取得了良好的效果. 相似文献
4.
5.
6.
7.
8.
基于BP神经网络的文档聚类研究 总被引:5,自引:0,他引:5
1.引言近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点。对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类。对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering)。最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档。现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序。另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类。 相似文献
9.
文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。 相似文献
10.
大数据智能分析与数据挖掘是从海量数据中提取更加本质和更加有用的规律性信息的重要手段,是挖掘智能和有价值信息的重要抓手.通过运用文献研究法和系统法,对大数据智能分析与大数据挖掘进行了阐述,给出大数据智能分析涉及到的关键技术,对其关键技术进行了阐述,提出大数据挖掘方法、类型、工具和流程及应用,并阐明大数据挖掘中使用的关键技术,希望能为大数据智能分析以及大数据挖掘的研究者提供借鉴. 相似文献
11.
随着生物医药文献的快速积累,利用文本挖掘技术处理海量的科技文献,从而发现生命科学领域新的知识,已成为当前数据挖掘和人工智能领域研究的热点.从Swanson最早提出基于生物医学文献的知识发现方法到现在,许多研究人员投入到这个新兴的领域中.对基于生物医学文献的知识发现的研究内容、研究方法以及成果进行了系统的分析和阐述,对不同的研究方法在文本挖掘过程中的优劣进行了比较,对基于生物医学文献的知识发现的发展趋势进行了展望. 相似文献
12.
基于概念空间的文本语义索引 总被引:6,自引:0,他引:6
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在。信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题。本文研究的内容是建立一个基于概念空间的文本语义索引。目前的文本索引都是建立在文本空间,或关键词空间上的,而建立在概念空间上的索引具有条理清晰、人机界面友好、符合通常检索习惯等许多优势,这也是文本语义索引发展的方向。另外.在建立文本索引的过程中,国内外大多使用Hopfield神经网络联想的方法,本文首次使用直接聚类法代替了Hopfield神经网络联想功能,这样使得索引具有很好的可扩展性。基于语义关联度的文本索引可以广泛应用于Internet搜索引擎、数字图书馆、电子商务等众多领域中。建立文本索引的过程主要有以下几部分: 1)对文档分类,建立文档的概念空间,在概念空间的层次上组织文档并确定文档中出现的关键词。 相似文献
13.
14.
15.
孙桂煌 《电脑与微电子技术》2011,(14):9-11,16
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。 相似文献
16.
基于Web数据挖掘的信息获取系统的研究及设计 总被引:1,自引:0,他引:1
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析.同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在Web上获取信息的应用. 相似文献
17.
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息,也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n-gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。摘要: 相似文献
18.
随着互联网信息的增长,WEB挖掘已经成为数据挖掘研究的热点之一,尤其适用于电子商务领域。文中介绍了web数据挖掘的概念和分类.阐述了web挖掘在电子商务中的挖掘方法和过程,分析了数据挖掘在电子商务中的具体应用。 相似文献
19.
20.
基于人工免疫系统的数据挖掘技术原理与应用 总被引:6,自引:0,他引:6
该文首先对人工免疫系统的发展历史和自然免疫系统机制进行简要介绍,之后重点对人工免疫系统在数据挖掘领域中的原理与应用研究进行详细分析综述。主要分两个部分,第一部分是从数据挖掘的主要任务——聚类和分类角度阐述人工免疫系统应用现状,第二部分主要从数据挖掘对象子领域——网络数据挖掘和文件挖掘角度分析人工免疫系统的应用,同时对有代表性的方法及其改进过程进行了详细介绍,指出人工免疫数据挖掘技术中的优点和缺点。最后提出新的研究方向。 相似文献