首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
数据挖掘是当前数据库和信息决策领域的研究热点.首先介绍了数据挖掘的基本涵义和主要方法,然后阐述数据挖掘技术在素质教育中的应用.  相似文献   

2.
分析了文本控制技术目前在电子政务领域中的作用,阐述文本控制技术中文本的分类及多文档结构文本控制技术中的主要关键技术,总结多文档结构文本控制技术在电子政务、电子商务以及企业ERP领域的应用前景。  相似文献   

3.
基于概念获取的多文档主题划分研究   总被引:1,自引:0,他引:1  
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值.当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果.本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题.实验结果表明该方法对多个相关文档的主题划分取得了良好的效果.  相似文献   

4.
《信息与电脑》2019,(19):134-136
随着互联网和信息技术的更新升级,网络数据的收集范围和传输速度均大幅度提升,开启了信息"大数据"时代。利用网络文本大数据进行情感分析是大数据挖掘技术应用的一种常规手段,被广泛应用在不同领域中。笔者研究了基于网络文本大数据的情感分析应用方向,详细探索了基于网络文本大数据的情感分析应用研究方向、研究方法和研究前景,并对后续的研究趋势进行了预测和展望。  相似文献   

5.
中文单文档摘要是把一篇文档压缩成一个更短描述的过程.随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值.但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题.该文提出基于关键信息指导的标题生成算法.算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续...  相似文献   

6.
多文档自动文摘综述   总被引:18,自引:9,他引:18  
秦兵  刘挺  李生 《中文信息学报》2005,19(6):15-20,56
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。  相似文献   

7.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

8.
基于BP神经网络的文档聚类研究   总被引:5,自引:0,他引:5  
1.引言近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点。对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类。对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering)。最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档。现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序。另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类。  相似文献   

9.
文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放集学习和跨模态学习等。  相似文献   

10.
大数据智能分析与数据挖掘是从海量数据中提取更加本质和更加有用的规律性信息的重要手段,是挖掘智能和有价值信息的重要抓手.通过运用文献研究法和系统法,对大数据智能分析与大数据挖掘进行了阐述,给出大数据智能分析涉及到的关键技术,对其关键技术进行了阐述,提出大数据挖掘方法、类型、工具和流程及应用,并阐明大数据挖掘中使用的关键技术,希望能为大数据智能分析以及大数据挖掘的研究者提供借鉴.  相似文献   

11.
随着生物医药文献的快速积累,利用文本挖掘技术处理海量的科技文献,从而发现生命科学领域新的知识,已成为当前数据挖掘和人工智能领域研究的热点.从Swanson最早提出基于生物医学文献的知识发现方法到现在,许多研究人员投入到这个新兴的领域中.对基于生物医学文献的知识发现的研究内容、研究方法以及成果进行了系统的分析和阐述,对不同的研究方法在文本挖掘过程中的优劣进行了比较,对基于生物医学文献的知识发现的发展趋势进行了展望.  相似文献   

12.
基于概念空间的文本语义索引   总被引:6,自引:0,他引:6  
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在。信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题。本文研究的内容是建立一个基于概念空间的文本语义索引。目前的文本索引都是建立在文本空间,或关键词空间上的,而建立在概念空间上的索引具有条理清晰、人机界面友好、符合通常检索习惯等许多优势,这也是文本语义索引发展的方向。另外.在建立文本索引的过程中,国内外大多使用Hopfield神经网络联想的方法,本文首次使用直接聚类法代替了Hopfield神经网络联想功能,这样使得索引具有很好的可扩展性。基于语义关联度的文本索引可以广泛应用于Internet搜索引擎、数字图书馆、电子商务等众多领域中。建立文本索引的过程主要有以下几部分: 1)对文档分类,建立文档的概念空间,在概念空间的层次上组织文档并确定文档中出现的关键词。  相似文献   

13.
面向查询的文本摘要是自动文摘中的一个特殊领域,可以根据用户个性化的查询需求,从原始文档或文档集中提取有价值的摘要信息。目前,该技术已经在面向查询的搜索引擎、智能化信息检索、问答系统等领域得到广泛应用,并受到越来越多的关注。文章基于面向查询的文本摘要任务的典型技术框架,从查询理解、文档处理和信息组织三个方面对其国内外研究方法的现状进行对比和分析,对不同业务场景的应用进行了举例,归纳了面向查询的文本摘要面临的挑战及发展趋势。  相似文献   

14.
数据挖掘过程的研究   总被引:1,自引:0,他引:1  
王岩 《福建电脑》2007,(3):67-67,74
数据挖掘作为决策支持新技术在近年来得到了迅速的发展,它能为决策者提供极有价值的信息或知识,从而产生不可估量的效益.论文从数据挖掘的概念和本质出发,主要针对其在商业领域中的应用,详细阐述了数据挖掘的过程.  相似文献   

15.
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。  相似文献   

16.
基于Web数据挖掘的信息获取系统的研究及设计   总被引:1,自引:0,他引:1  
潘静  饶若楠 《计算机工程》2004,30(Z1):136-138
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析.同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在Web上获取信息的应用.  相似文献   

17.
孙桂煌 《现代计算机》2011,(16):9-11,16
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息,也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n-gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。摘要:  相似文献   

18.
赵焕平  仝选悦 《福建电脑》2008,(1):167-167,152
随着互联网信息的增长,WEB挖掘已经成为数据挖掘研究的热点之一,尤其适用于电子商务领域。文中介绍了web数据挖掘的概念和分类.阐述了web挖掘在电子商务中的挖掘方法和过程,分析了数据挖掘在电子商务中的具体应用。  相似文献   

19.
文本挖掘研究进展   总被引:2,自引:0,他引:2  
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程.本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品.  相似文献   

20.
基于人工免疫系统的数据挖掘技术原理与应用   总被引:6,自引:0,他引:6  
该文首先对人工免疫系统的发展历史和自然免疫系统机制进行简要介绍,之后重点对人工免疫系统在数据挖掘领域中的原理与应用研究进行详细分析综述。主要分两个部分,第一部分是从数据挖掘的主要任务——聚类和分类角度阐述人工免疫系统应用现状,第二部分主要从数据挖掘对象子领域——网络数据挖掘和文件挖掘角度分析人工免疫系统的应用,同时对有代表性的方法及其改进过程进行了详细介绍,指出人工免疫数据挖掘技术中的优点和缺点。最后提出新的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号