首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
《现代电子技术》2019,(4):166-170
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。  相似文献   

2.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

3.
针对基于字符分割的中文手写识别方法存在字符分割准确率影响识别准确率和速度的问题,文中设计了一种基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)的中文手写识别方法,方法将特征提取、序列预测、序列对齐算法集成到同一网络,实现端到端(End-to-End)的训练和识别。模型仅需输入待识别中文手写图像,中文字符免分割,即可输出识别结果,识别的准确率(Accuracy)相较基于结构特征点字符分割识别算法提高了2. 29%,同时少了识别的时间。  相似文献   

4.
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。  相似文献   

5.
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路.  相似文献   

6.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。  相似文献   

7.
针对当前电力运营数据分析和利用不足的现状,提出一种基于文本分类与语义识别的电力运营数据智能处理算法。该算法采用剔除异常文本、分词以及去停顿词等操作进行电力运营文本清洗,再使用连续词袋(CBOW)模型实现电力运营文本的向量化表示。同时利用Apriori算法挖掘电力运营文本向量与文本分类结果的关联规则,并基于小批量梯度下降(MBGD)的长短期记忆网络(LSTM)算法来获取电力运营文本分类的结果。通过对新疆电网某历史数据的仿真分析结果表明,文中所提算法相较于LSTM与Apriori-SVM算法,在电力运营文本分类上具有更高的准确率;且与传统梯度下降法相比,MBGD算法能够在保持较高准确率的同时大幅缩减模型的训练时间。  相似文献   

8.
《现代电子技术》2020,(6):65-69
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用。  相似文献   

9.
信息提取技术是自然语言处理技术的关键技术之一,其中最主要的任务是事件元素提取.本文利用深度学习网络模型实现信息提取任务进行了深入研究.训练数据来源于上海大学构建的CEC已标注的语料库.相比于采用手工设立规则的识别方式和BiLSTM网络模型,本文通过对数据进行预处理和搭建BERT-BiLSTM-CRF深度网络模型,对文本数据训练实现标注,在时间、报道时间、参与对象的识别准确率上均有所提升.  相似文献   

10.
用卷积网络进行人体行为识别是毫米波雷达的一个热门研究方向。由于卷积网络结构的缺陷性,而且目前用于人体行为识别公开的雷达领域数据样本量过少,传统深度学习算法对雷达微多普勒图像的识别率不高,且在训练过程中容易出现过拟合的现象。针对上述问题,本文提出一种融合快照集成与迁移学习的雷达人体行为识别算法。首先,针对深度卷积网络无法提取图像全局特征的问题,该算法通过搭建Vision Transformer(VIT)模型引入注意力机制。其次,通过VIT模型在公开自然数据集上进行任务迁移和特征空间的迁移,解决微多普勒图像的识别过拟合的问题。最后,利用基于快照集成的投票机制算法,提升模型对复杂雷达微多普勒图像的识别能力。试验结果表明,在目标任务数据集样本量少、背景复杂的情况下,该算法能在不增加训练成本的前提下提升微多普勒图像的识别准确率,在VIT模型下该算法识别准确率达到了89.25%,优于经典卷积神经网络。  相似文献   

11.
中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。  相似文献   

12.
盛晓光  王颖  钱力  王颖 《电子与信息学报》2021,43(12):3442-3450
为解决学者与成果的精确匹配问题,该文提出了一种基于图卷积半监督学习的论文作者同名消歧方法。该方法使用SciBERT预训练语言模型计算论文题目、关键字获得论文节点语义表示向量,利用论文的作者和机构信息获得论文的合作网络和机构关联网络邻接矩阵,并从论文合作网络中采集伪标签获得正样本集和负样本集,将这些作为输入利用图卷积神经网络进行半监督学习,获得论文节点嵌入表示进行论文节点向量聚类,实现对论文作者同名消歧。实验结果表明,与其他消歧方法相比,该方法在实验数据集上取得了更好的效果。  相似文献   

13.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

14.
一种改进整词二分法的中文分词词典设计   总被引:1,自引:0,他引:1  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.针对常用的分词方法--正向匹配分词法的特征,在已有整词二分词典的基础上加以改进,设计了一种基于Hash索引、二叉树以及动态一维数组结构的中文分词词典,相对于传统的基于Hash索引的分词词典,减小了词典的空间复杂度,提高了汉语分词的速度,最主要的是改进后的词典在增添新词时比以往的词典更为容易.  相似文献   

15.
李平  李雨航 《电讯技术》2024,(4):504-511
针对时空相似度算法关联轨迹的局限性,采用深度学习方法进行轨迹关联,并提出了一种基于无监督预训练的匹配神经网络训练方式。利用Geohash向量嵌入对轨迹信号做特征工程处理,构建自注意力机制神经网络结构,使用无标注轨迹数据基于遮蔽预测任务进行模型预训练;然后构建孪生匹配网络结构,加载预训练模型参数;最后使用标注轨迹对数据基于均方差损失函数微调预训练模型参数得到轨迹对匹配模型。采用Geolife GPS轨迹数据集作为评估数据集进行模型训练与测试,实验结果显示,利用无监督预训练的轨迹关联方法较现有最优算法匹配准确率提高了5个百分点,达到了96.3%,充分证明了该方法的有效性。目前轨迹关联领域基于深度学习预训练模型的研究较少,该方法具有重要的参考意义。  相似文献   

16.
现有多模态分割方法通常先对图像进行配准,再对配准后的图像进行分割.对于成像特点差异较大的不同模态,两阶段的结构匹配与分割算法下的分割精度较低.针对该问题,该文提出一种基于跨模态空间匹配的多模态肺部肿块分割网络(MMSASegNet),其具有模型复杂度低和分割精度高的特点.该模型采用双路残差U型分割网络作为骨干分割网络,...  相似文献   

17.
一种给批量汉字加注带有声调拼音的方法   总被引:1,自引:1,他引:0  
由于汉字存在着多音字的情况,所以给汉字加注带有声调的拼音带来了困难.为了解决这一问题,设计了单字与词语相结合的加注方法.首先构建了带有声调的拼音字典和词典,拼音字典中同一个多音字的拼音按照使用频率进行排放,并且对词典中的词语按照最后一个字进行了索引;然后设计了基于整词二分的二层索引结构,实现了改进的最大逆向分词算法;最后设计了三种实验方案,进行了对比实验.实验结果表明,在没有使用该方法前它的错误率为11%,使用后错误率下降为0.09%.  相似文献   

18.
针对网孔织物图像的对比度低和噪声点多而导致分割结果中存在网孔连在一起和残缺等问题,提出一种基于区域灰度极小值的分割算法以期提高网孔的分割精度。首先利用高斯金字塔缩放和直方图均衡化算法处理图像以增强图像的纹理轮廓和明暗对比度。然后采用一种基于区域灰度极小值的分割算法以解决仅仅依靠灰度值大小而无法正确分割网孔的问题。最后采用一种多图像融合算法以解决基于局部灰度极小值的分割算法中阈值选择困难的问题。选择多种不同光照程度的网孔织物图像进行实验,实验结果表明所提算法的分割效果良好,能够有效地解决分割结果中网孔连在一起和残缺等问题,且网孔织物的分割错误率为0.24%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号