首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

2.
《现代电子技术》2019,(1):95-99
当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行了推理。该分词模型不仅在MSRA,PKU,CTB 6.0数据集上取得了很好的分词结果,而且在新闻数据、微博数据、汽车论坛数据、餐饮点评数据上进行了实验,实验结果表明,BI_LSTM_CRF模型不仅在测试集上有很好的分词性能,同时在跨领域数据测试上也有很好的泛化能力。  相似文献   

3.
针对企业异构数据融合检索的需求,介绍了异构数据整合的常用方法和企业级搜索服务器solr的基本功能,结合xml异构数据整合、中文分词技术和友好的用户界面搭建了基于solr的异构数据融合检索系统,实现了对xml文件的索引和检索,为异构数据融合检索提供了解决方案。  相似文献   

4.
<正>在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的模型对中文机构名的识别和匹配进行研究,先通过CRF++训练分词模型,然后通过有限状态机模型结合的状态转移函数,对分词后的地址进行识别,能够准确地对地名地址进行识别,研究结果有很大的现实意义。  相似文献   

5.
联邦学习可以使客户端在不公开其本地数据的情况下合作训练一个共享模型,此种学习方式保证了客户端数据的隐私性。但是,与集中式学习相比,客户端数据的异构性会大大降低联邦学习的性能。数据异构使本地训练的模型向不同方向更新,导致聚合后的全局模型性能较差。为了缓解数据异构对联邦学习造成的影响,算法提出了基于模型对比和梯度投影的联邦学习算法。此算法设计了一个新的损失函数。新损失函数利用全局模型与本地模型的差异性来指导本地模型的更新方向,并且通过降低全局梯度与本地梯度的冲突来提高模型准确度。实验表明相比其他算法,此算法可以在不增加任何通信开销的情况下达到更高的准确度。  相似文献   

6.
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。  相似文献   

7.
惠国保 《现代导航》2017,8(3):218-223
在大数据背景下,结合深度学习,讨论了多源异构影像数据融合问题,在数据融合的基本架构基础上,构思了一种泛化性强的多源异构影像数据融合的深度学习模型,将深度学习技术运用到多源异构数据信息提取与挖掘。  相似文献   

8.
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法.首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经...  相似文献   

9.
针对在数据异构和资源异构的无线网络中联邦学习训练效率低及训练能耗高的问题,面向图像识别任务,提出了基于优化引导的异步联邦学习算法AFedGuide。利用较高样本多样性的客户端模型的引导作用,提高单轮聚合有效性。采用基于训练状态的模型增量异步更新机制,提高模型更新实时性以及信息整合能力。设计基于模型差异性的训练决策,修正优化方向。仿真结果显示,相较于对比算法,AFedGuide的训练时长平均减少67.78%,系统能耗平均节省65.49%,客户端的准确率方差平均减少25.5%,说明在客户端数据异构和资源异构的无线网络下,AFedGuide可以在较短的训练时间内以较小的训练能耗完成训练目标,并维持较高的训练公平性和模型适用性。  相似文献   

10.
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路.  相似文献   

11.
Semantic segmentation is a prominent problem in scene understanding expressed as a dense labeling task with deep learning models being one of the main methods to solve it. Traditional training algorithms for semantic segmentation models produce less than satisfactory results when not combined with post-processing techniques such as CRFs. In this paper, we propose a method to train segmentation models using an approach which utilizes classification information in the training process of the segmentation network. Our method employs the use of classification network that detects the presence of classes in the segmented output. These class scores are then used to train the segmentation model. This method is motivated by the fact that by conditioning the training of the segmentation model with these scores, higher order features can be captured. Our experiments show significantly improved performance of the segmentation model on the CamVid and CityScapes datasets with no additional post processing.  相似文献   

12.
中文分词技术的研究现状与困难   总被引:2,自引:0,他引:2  
孙铁利  刘延吉 《信息技术》2009,(7):187-189,192
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向.  相似文献   

13.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

14.
现有多模态分割方法通常先对图像进行配准,再对配准后的图像进行分割.对于成像特点差异较大的不同模态,两阶段的结构匹配与分割算法下的分割精度较低.针对该问题,该文提出一种基于跨模态空间匹配的多模态肺部肿块分割网络(MMSASegNet),其具有模型复杂度低和分割精度高的特点.该模型采用双路残差U型分割网络作为骨干分割网络,...  相似文献   

15.
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。  相似文献   

16.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

17.
针对分辨率、信噪比、补零及深度置信网络等对深度学习舰船目标识别性能的影响问题,文中开展了基于实测数据的相关实验分析,整个实验分析处理过程包括回波信号对齐、数据脉冲压缩、信号能量归一化、深度学习模型训练、分类器设计及判决输出。实验分析结论为深刻理解基于深度学习的高分辨距离像舰船目标识别技术原理内涵,开展舰船目标识别工程化应用设计奠定了坚实的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号