首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
为深层挖掘电力数据文本蕴藏的信息,本文基于自然语言处理技术分析了电力文本挖掘与分类流程,通过分词技术分析文本内容,提取文本特征,并构建分类器模型以自动分类文本,最后以实例分析了电力文本挖掘与分类的实际效果.结果表明,中文电力数据文本挖掘准确度较高,适用范围广泛,方式方法灵活,可及时准确挖掘隐藏的关键信息,为分析客户用电...  相似文献   

2.
基于Multi-agent技术的Web文本挖掘模型及应用   总被引:3,自引:0,他引:3  
姜丽华  黄敏  马永光  佟振声 《计算机工程》2005,31(1):217-218,221
介绍了一个基于Multi-agent技术的Web文本挖掘模型,该模型利用多智能体技术,将文本挖掘和多维文件分析技术结合起来实现了文档收集、预处理、分类、聚类等功能。最后给出了根据该模型设计和实现的某企业人才素质评价系统的实例,系统运行结果证明了模型的有效性和科学性。  相似文献   

3.
为了解决95598客服投诉工单的整理、归档等问题,其中包括:在人工进行归档的过程中出现的疏忽造成的归档随意问题,即归档准确性问题;人工对投诉工单进行差错点归纳的耗时问题,即效率问题;人工对客服投诉分析深度不足,无法精准快速定位用户诉求热点的问题,即深度问题。本文针对以上三个问题给出解决方案,采用word2vec和XGBoost相结合的方式达到对95598客服投诉工单精准归纳。在文本词向量化的过程中采用word2vec方法,得到单词的文本词向量;利用XGBoost算法对95598客服投诉工单进行分类归档,并且对历史投诉工单的责任部门、专业分类、诉求事件、差错点四个方面进行标注。该模型的分类准确率在83%-91%左右,有较好的的效果。基于工单分类的结果,并设计了相关的投诉类看板,更直观的对数据进行展示。  相似文献   

4.
姜琳杰  蔡玲  赵峻 《信息与电脑》2022,(12):103-105
为解决常规的群体投诉信息分析系统存在的信息分析耗时较长问题,保证信息分析的实时性,本文基于文本挖掘设计新的群体投诉信息分析系统。硬件部分设计了MT48LC信息存储芯片和TIAM3351BZCE60微处理器;软件部分首先构建群体投诉信息分析架构,其次基于文本挖掘设计群体投诉信息分析算法,最后设计群体投诉信息功能模块,实现群体投诉信息分析。系统测试结果表明,设计的群体投诉信息分析系统的信息分析耗时较短,证明设计的群体投诉信息分析系统性能良好,能够满足群体投诉信息分析的实时性需求,有一定的应用价值,为后续群体投诉信息集中处理作出了一定的贡献。  相似文献   

5.
医疗领域知识的获取通常需要耗费大量的时间和人力成本。通过自动提取医疗知识,构建知识图谱,并利用自然语言处理(Natural Language Processing,NLP)技术进行推理和推荐,可以辅助医生制定更准确、个性化的诊疗方案,并为患者提供更好的医疗服务。基于此,文章探讨了结合自然语言处理和知识图谱的医疗文本挖掘与知识提取。  相似文献   

6.
提出了基于深度玻尔兹曼机的电力投诉工单识别分类模型。首先对投诉工单数据进行数据清洗,对处理后的数据使用结巴分词算法进行分词并制作字典,再使用词袋模型对所分词向量化处理提取文本特征。进一步地,通过TF-IDF算法找出关键词以及余弦相似度计算训练、测试文档间的相似度;最后使用深度玻尔兹曼机对投诉工单进行分类。实验证明,分类的准确度达到80%,有效地缓解电力部门的工作压力,提高工作效率。  相似文献   

7.
电网客服工单文本识别对于电力企业市场经营具有深远的意义,能为电网智能化推进提供必要的数据支撑。本文提出了一种基于自然语言处理的电网客服工单文本自动识别方法,利用改进的HanLP分词器分词,通过跨语言预训练模型得到文本的数据化表示,并结合注意力机制和双向长短时记忆模型对文本进行识别。实验数据表明,在工单的一级分类目录下,提出的模型测试集准确率可达98.3%,其精确率、召回率、F1分数分别为95.3%、94.7%、95.0%。在二级分类目录下其评价指标依然维持在90%以上。说明模型在电网客服工单文本识别方面性能较为优异。  相似文献   

8.
文本挖掘研究进展   总被引:2,自引:0,他引:2  
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程.本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品.  相似文献   

9.
10.
因文本信息泄密导致的危害越来越严重,但传统的泄密检测还停留在人工查看,效率低且易造成二次泄密.针对以上问题,采用文本相似度自动比较和数据加密方法,提出了一种基于自然语言处理的文本泄密自动检测技术.在实际应用中,因检测粒度过粗可能导致漏检,采用基于自然段落和语句的相似度检测方法,方便疑似段落和语句的自动定位,最后设计并实现了一个文本泄密检测系统.实验结果表明,该技术能很好地应用于涉密文本泄密的检测,具有保密、人工干预少、效率高、疑似段落定位等特点.  相似文献   

11.
近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。  相似文献   

12.
朱国进  郑宁 《计算机工程》2014,(12):126-131
网络中的很多程序资源在知识概念上有内在的联系,却没有超链接将它们连接在一起。将网络程序资源中的算法知识名称获取出来,组织成一个算法知识专家库文件,用于识别程序设计资源所含的知识点,即可将程序设计资源按知识点相互联系。为了自动获取程序资源中的算法知识名称,提出一种基于自然语言处理的算法知识名称发现方法。通过发现含有算法知识名称语句的字符串模式,从程序资源中提取可能含算法知识名称的字符串,从中找出最有可能出现在算法知识名称中的分词,并根据这些分词获取算法知识名称。实验结果表明,与原有人工整理出的算法知识名称集合相比,该方法新增了11.2%的算法知识点和13.6%的算法知识名称。  相似文献   

13.
单词嵌入是指运用机器学习的方法,将位于高维离散空间(维数为词典单词数目)中的每个单词映射到低维连续空间的实数向量的技术。在很多文本处理的任务中,单词嵌入提供了更好的语义级别的单词特征表示,从而为文本处理任务带来了诸多便利。同时,大数据时代海量的未标注文本数据,以及以深度学习为代表的机器学习技术的发展使高效的单词嵌入技术成为可能。本文将给出单词嵌入的定义以及实际意义,同时将综述目前单词嵌入技术的几种典型方法,包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文共生矩阵分解的方法。本文将详细介绍不同模型的数学定义、物理意义以及训练方法,并给出他们之间的比较。  相似文献   

14.
杨伊  李滢  陈恺 《计算机研究与发展》2022,59(12):2649-2666
随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生.漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性.当前漏洞检测技术主要集中在静态检测和动态检测2方面.其中静态检测分析又分为文档分析法、交叉验证法以及程序分析方法等3类.随着自然语言处理技术的兴起和专家知识的不断扩展,研究人员探索了在多个数据源上利用自然语言处理技术辅助进行漏洞检测研究的可行性.根据信息类型的不同,分别从官方文档、代码、代码注释以及漏洞相关信息4部分内容出发,对基于自然语言处理的漏洞检测相关研究成果进行调研.首先,通过对近10年来基于自然语言处理技术的漏洞检测相关文献进行梳理,对相关成果进行分类并提取技术细节;接着,对不同数据源下的研究成果进行横向对比,总结当前基于自然语言处理技术的漏洞检测成果的优缺点;最后,通过交叉对比并深入分析,总结当前基于自然语言处理的漏洞检测方法中存在的8类问题,从数据、技术以及效果3方面进行解决方案的讨论,同时提出了未来研究方向.  相似文献   

15.
面向自然语言信息处理的维吾尔语名词形态分析研究   总被引:2,自引:3,他引:2  
名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。  相似文献   

16.
在自然语言识别过程中,为了提高识别的准确性,我们引入了模式匹配。不仅仅局限于传统的语法-语义分析,而是在语法分析的基础上,结合工程应用来定义最适合自然语言识别的语言模式,然后把模式存入到知识库当中。当需要对自然语言识别时,根据已有模式来匹配句子,从中检索出所需要的信息。文章完整地阐述了这种基于模式匹配的自然语言识别的全过程,并对模式的定义、分析及提取给出了详尽的剖析。最后以一个实验系统证明了此方法的可行性和准确性。  相似文献   

17.
为了向需求维度不同的买家科学地提供基于煤炭产品自身品质及其发售地区差异性推荐意见,文中提出了一种基于卷积神经网络与自然语言处理相结合的文本卷积推荐模型(text CNN recommendation model,TCRM).该模型由各字段单词特征生成嵌入向量,在不同尺寸的卷积核上做卷积和最大池化,再通过全连接层合并所有...  相似文献   

18.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号