首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
将全信息(自然语言的语法、语义和语用信息)自然语言理解应用到可靠语音功能的研究中,提出在语音识别之后增加一个全信息自然语言理解的文本后处理功能,通过深入分析词语的语法信息(位置、识别稳定度)、语义信息(语句目标含义)和语用信息(语境和谐度)对语音识别结果语句进行评估、检错和纠错,最终输出优化语句。实验结果表明,增加全信息自然语言理解后处理可使识别正确率获得较好改善。  相似文献   

2.
自然语言理解的全信息方法论   总被引:17,自引:3,他引:14  
在经济全球化需求的推动下,世界在酝酿一场“自然语言信息技术革命” ,它的基础和核心是“自然语言理解”的理论与方法. “全信息自然语言理解方法论”是作者的“全信息理论”在自然语言理解领域的应用. 与文献中已有的其他工作不同,其主要特色是: 一方面,试图实现语法信息、语义信息、语用信息的综合利用;另一方面寻求“规则方法”和“统计方法”的和谐互补,从而有效增强对自然语言的理解能力. 近几年来,应用这一方法论完成了一系列自然语言理解方面的课题,取得了一批可喜的研究成果,表明全信息自然语言理解方法论具有很好的前景.  相似文献   

3.
利用RBF神经网络,采用全监督训练算法,实现基于RBF神经网络的抗噪语音识别系统。与传统的K-均值聚类算法相比较,采用全监督训练算法可避免隐含层节点中心容易对初始值敏感的缺点,且能使RBF网络具备更强的分类能力。实验结果表明,在不同的信噪比下,全监督训练算法比传统聚类算法有更高的识别率。  相似文献   

4.
针对基于语音识别的语音检索方法对语言模型的强依赖问题,通过改进声学模型学习框架提出了一种新的朝鲜语语音检索方法.该方法首先修改KoSpeech框架的网络模型,通过训练得到了朝鲜语的声学模型; 其次通过语音文档分割方法构建了语音文档索引库; 最后利用编辑距离匹配的方法实现了语音检索.实验结果表明,改进的朝鲜语声学模型学习框架降低了语音检索方法对语言模型的依赖和大规模数据集的要求.当k取9时, top -k评价方法的检索均值平均精度达到86.74%, 召回率达到95.25%, 该结果表明本文提出的方法是有效的,具有一定的实际应用价值.  相似文献   

5.

提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。

  相似文献   

6.
针对语音和噪音的特点,提出在高噪声条件下,用LPC全极点模型的增强算法,进行系统次现及比较和测试,系统在较高噪声背景下,该方法具有很好的去噪效果。  相似文献   

7.
本文针对线性模型在语音识别中的不足,进行了隐马尔可夫模型(HMM)在语音单字识别中的研究,主要对观察输出概率求解、最佳状态序列寻找、参数估计和模型参数的选择进行了探讨。  相似文献   

8.
对凌阳科技公司新款推出的SPCE061A处理芯片进行了简要的介绍,分析了该芯片作为语音处理核心平台的功能,着重从硬件的设计扩展、软件设计流程的架构等方面,对利用该芯片开发具有语音识别功能控制器的方法进行了探讨。  相似文献   

9.
利用Nuance和jTTS语音合成技术,将用户通过电话输入的特定语音转换成机器人指令,通过网络实时传输到远程机器人端,机器人控制端接收到命令,通过对命令的判断,做出相应的动作,从而实现对机器人的远程控制,该系统还可以通过网络视频软件将机器人现场视频画面实时采集、传输和在本地播放.  相似文献   

10.
从Nuance语音平台工作流程、开发工具、开发过程等方面,对基于Nuance平台的语音识别环境设计进行了阐述和探讨,并重点阐述了主体代码及几个重要组成文件的作用和编写过程.  相似文献   

11.
随着网络技术的发展,文本信息急速增长。文本内容自动处理的相关研究无疑成为最急迫的任务。文章从一些文本内容相关的应用研究开始介绍,其中简要介绍了自动摘要技术、自动标引、信息抽取、文本分类和聚类等,期冀通过对这些应用研究的了解,认识到要重视文本内容的基础研究,从词语层到篇章层的深入分析才是文本内容处理研究发展的最终突破点。  相似文献   

12.
针对商务信息领域的产品命名实体,研究了产品命名实体各部分的结构特征和相互关系,建立了一个三层的半监督学习框架. 该方法综合利用规则词典和统计的方法,建立一个隐条件随机场模型,可以更充分地利用自举得到数据的隐藏状态. 在数码相机领域进行的实验结果表明,该方法只需要少量的手工标记数据就能较好地识别网页等文本中的产品命名实体.  相似文献   

13.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

14.
一种特定领域中文自动摘要系统   总被引:6,自引:3,他引:3  
介绍面向神经网络学习算法这一特定领域的理解型中文自动摘要系统Ladies的研究与实现, 着重分析它不同于其它摘要系统的创新特色及其设计思想, 并给出部分实验结果.  相似文献   

15.
命名实体识别是自然语言处理中一项非常重要的任务, 一句话中可以正确理解其中的实体, 对于是否能正确理解这句话至关重要, 而中文的命名实体识别相比英文更有难度, 原因在于中文没有英文中类似空格的边界标示词, 且存在复杂的嵌套现象。针对现有的中文命名实体识别方法中大多只利用单一层次的特征这一问题, 利用Bert中文预训练集和额外的词汇数据集的融合模型增强词意和中文上下文联系, 采用BiGRU 网络获取序列特征矩阵,通过条件随机场模型生成全局最优序列, 从而提升实体识别准确率。实验结果表明该方法在公开数据集上的效果优于现有模型。  相似文献   

16.

基于自然语言处理的跨站脚本性能分析

徐孟达,李鲁群

(上海师范大学信息与机电工程学院,上海 200234)

创新点说明:

恶意跨站脚本导致的用户信息泄露是非常严重的。本文使用URL属性分析和YARA规则来处理跨站点脚本编写的数据。

研究目的:

利用机器学习及深度学习等方法,采集恶意攻击脚本数据并分析跨站脚本语句,实现恶意跨站脚本分类,做到预防 XSS 攻击,对于网络攻击防御有一定的现实意义。

研究方法:

1、从自然语言处理的角度对 XSS 脚本进行分析、建模,用深度学习方法研究 XSS 识别规则和分类模式,并验证分类效果

2、提出基于 URL 属性的分析和基于 YARA 规则的分析方法,根据收集到的数据的文本特征,使用定义的数据预处理流程对恶意跨站脚本数据进行预处理。通过恶意脚本代码注入检测的策略和绕过检测的策略,分析得出其文本特征。

研究结果:

1、LSTM模型在100轮左右的实验中,准确率达到98%,召回率达到96%。在相同条件下,它比MLP模型和CNN模型的速度快约2倍。

2、机器学习的决策树方法在模型训练上比神经网络模型训练花费的时间少。但神经网络模型的准确率普遍高于机器学习决策树算法。

3、机器学习的决策树方法在模型训练上比神经网络模型训练花费的时间少。但决策树方法不能反映损失值。

4、本文的LSTM方法准确率较低,但loss值较低,recall rate和F1得分最高。此外,召回率和F1评分可以反映模型识别恶意脚本的能力,可以证明本文采用的方法具有良好的效果。

5决策树的机器学习方法相结合的研究,表明决策树处理大样本的能力较弱,和树结构形成时,数据量太大不适合数据集的计算。因此,深度学习可以训练大数据样本,获得更准确的结果。

结论:

本文通过属性分析和YARA规则分类来分析跨站点脚本。本文从自然语言处理的角度分析跨站点脚本。此外,将单词编码集的计算添加到LSTM神经网络模型中,对实验数据进行分类,取得了良好效果,有利于一定程度上提高网络数据通信安全。

文中编写的YARA规则并不全面。针对收集到的数据,有必要在后续的研究中对恶意脚本语句的攻击形式进行总结和细化,不断优化语句处理逻辑,进而提高脚本检测能力。

关键词:跨站点脚本;网络通信;网络安全;自然语言处理

  相似文献   

17.
彝语的语音识别与处理是语音信号处理领域的一个新方向.本文在深入分析彝语特点的基础上,对用于汉语孤立词识别的经典端点检测算法进行了改进.探讨了动态时间规整算法(Dynamic Time Warping,DTW)和高效动态时间规整算法(Efficient DTW,EDTW)在彝语孤立词识别中的应用,并提出了两种新算法:基于音节个数的动态时间规整算法(Syllable Number Based Improved DTW,SDTW)和基于音节个数的高效动态时间规整算法(Syllable Number Based Improved EDTW,SEDTW),对特定的彝语语音信号进行识别.实验结果表明,所提出的两种新算法分别在信号识别率和识别时间上比经典算法优越.  相似文献   

18.
提出了一种统计与规则相结合的算法,即优先合并算法,通过计算词语相关度来合并短语,并在句法和语义上利用短语规则和语义词典进行校验,按照层次分析的方式实现了对汉语短语的机器识别.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号