首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 445 毫秒
1.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

2.
人们日常交流中手势交流是一种不可或缺的形式,但市面上大多数用于进行手势识别的机器均存在体积较大、成本高、功耗大等问题。而使用嵌入式开发板来进行手势识别只要达到一定的准确率就可以很好地解决上述的问题。因此,基于K210,设计了一款手势识别装置。搭建TensorFlow环境,使用YOLOv3算法进行模型的训练,取数据集进行标注后进行多次迭代训练,在训练完成之后使用测试数据集对训练得到的模型进行测试。在达到目标的准确率之后将h5模型转换为可以在K210上运行的kmodel模型,使用MicroPython进行编程,从而实现识别功能。测试结果表明,该系统不仅解决了目前手势识别机器在体积、成本、功耗等方面的问题,而且其识别准确率和效率均符合标准要求,具有一定的推广使用价值。  相似文献   

3.
针对目前基础深度学习模型特征提取能力较弱,静态词向量模型无法表示多义词以及网站类型识别准确率不高等问题,提出了基于ERNIE2.0-MCNN-BiSRU-AT的网站类型识别模型。采用ERNIE2.0通过结合当前词的具体上下文语境学习到动态向量表征,解决静态词向量存在的一词多义问题;多特征融合网络全面地捕捉多个尺度下的局部语义和上下文序列特征,软注意力机制计算每个特征对网络分类结果的权重得分,以突出关键分类特征。线性分类层输出网站类型识别结果。在真实网站类型数据集上进行实验,相关结果表明,ERNIE2.0-MCNN-BiSRU-AT模型F1值达到了95.67%,高于实验对比的近期表现优秀的深度学习模型,并通过大量消融对比实验验证了各个功能模块的有效性。  相似文献   

4.
针对静态词向量存在无法表示多义词,以及传统深度学习模型特征提取能力不足等问题,提出了结合ERNIE2.0(Enhanced language Representation with Informative Entities 2.0)的医疗中文命名实体识别模型。ERNIE2.0模型通过结合词的上下文具体语境进行动态学习,得到词的动态语义表征,解决了一词多义问题。使用BiSRU模型提取医疗文本高维全局序列特征,软注意力机制用于计算每个词的权重大小,由条件随机场输出命名实体的序列标记结果。在标准化数据集上的实验表明,ERNIE2.0-BiSRU-AT-CRF模型的F1值达到了86.74%,优于实验对比的其他模型,证明了模型的有效性。  相似文献   

5.
论文提出了一个基于Windows系统调用序列检测的异常检测模型,并在原有的系统调用序列串算法的基础上引入了系统调用参数以及系统调用虚地址空间来对程序行为进行精确分析。  相似文献   

6.
付强  丁晓青  蒋焰 《电子与信息学报》2008,30(12):2916-2920
该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到字根图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的字根合并路径,得到最优的切分结果及对应的最优识别结果。其中,几何信息是根据当前字符串自身的特点统计得到,因此可适应不同书写风格的字符串。识别信息由单字分类器给出,包括10个候选识别结果及其相应的置信度;单字分类器采用MQDF分类器。语义信息用基于字的bi-gram模型进行描述,模型参数是从包含18万条地址数据的数据库中统计得到的。用3000个实际的手写地址样本做试验,单字识别正确率达到88.28%。  相似文献   

7.
采用基于统计的方法实现日本人名的识别和翻译系统。将人名的识别转换成序列标注问题,采用条件随机场方法训练识别模型。训练语料在标注时使用S/E(Start/End)标注风格;利用人名在上下文中的关系、人名称呼后缀词和人名字典来设计特征模板。人名翻译时将日本人名分为假名人名和汉字人名,汉字人名的翻译通过建立日本人名常用汉字翻译字典实现;假名人名的翻译通过Moses系统训练翻译模型实现。该系统在人名的识别和翻译测试中都取得了不错统计结果。  相似文献   

8.
情感识别是实现自然人机交互的必要过程。然而,情感数据高昂的采集和标注成本成为了限制情感识别研究发展的一大瓶颈。在无标注或有限标注的场景下,利用知识的跨领域或跨任务迁移提升情感识别效果的问题值得探索。本文对情感识别中的迁移学习问题进行了梳理和分析。首先,将迁移学习问题划分为针对领域差异和针对任务差异的两大部分,并进一步将每部分问题细分为多种不同的情况。随后,基于情感识别领域的研究现状,分别总结不同情况下的现有工作。在目标领域训练资源匮乏的情况下,可以利用其他带标注的数据集作为源领域训练模型,并对齐不同领域下的特征分布,或将特征映射到域间共享的空间。考虑到情感标签所提供的监督信息往往较为有限,为了进一步提升模型的识别效果,可以引入其他相关任务进行联合训练,或将预训练模型、外部知识库提供的先验语义知识迁移到情感识别任务中。最后,讨论了情感识别领域中未来需要得到更多关注和探索的迁移学习问题,旨在为研究者带来新的启发。  相似文献   

9.
图像分类作为计算机视觉领域中的重要研究方向之一,应用领域非常广泛.基于深度学习的图像分类技术取得的成功,依赖大量的已标注数据,然而数据的标注成本往往是昂贵的.主动学习作为一种机器学习方法,旨在以尽可能少的高质量标注数据达到期望的模型性能,缓解监督学习任务中存在的标注成本高、标注信息难以大量获取的问题.主动学习图像分类算法根据样本选择策略,从未标记样本数据集合中选择出信息量丰富,对分类模型训练贡献更高的样本进行标注,以更新已标注训练数据池,如此循环直至满足给定的停止条件或模型标注预算耗尽.本文对近年来提出的主动学习图像分类算法进行了详细综述,并根据所用样本数据处理及模型优化方案,将现有算法分为三类:基于数据增强的算法,包括利用图像增广来扩充训练数据,或者根据图像特征插值后的差异性来选择高质量的训练数据;基于数据分布信息的算法,根据数据分布的特点来优化样本选择策略;优化模型预测的算法,包括优化获取和利用深度模型预测信息的方法、基于生成对抗网络和强化学习来优化预测模型的结构,以及基于Transformer结构提升模型预测性能,以确保模型预测结果的可靠性.此外,本文还对各类主动学习图像分类算法...  相似文献   

10.
柯逍  邹嘉伟  杜明智  周铭柯 《电子学报》2017,45(12):2925-2935
针对传统图像标注模型存在着训练时间长、对低频词汇敏感等问题,该文提出了基于蒙特卡罗数据集均衡和鲁棒性增量极限学习机的图像自动标注模型.该模型首先对公共图像库的训练集数据进行图像自动分割,选择分割后相应的种子标注词,并通过提出的基于综合距离的图像特征匹配算法进行自动匹配以形成不同类别的训练集.针对公共数据库中不同标注词的数据规模相差较大,提出了蒙特卡罗数据集均衡算法使得各个标注词间的数据规模大体一致.然后针对单一特征描述存在的不足,提出了多尺度特征融合算法对不同标注词图像进行有效的特征提取.最后针对传统极限学习机存在的隐层节点随机性和输入向量权重一致性的问题,提出了鲁棒性增量极限学习,提高了判别模型的准确性.通过在公共数据集上的实验结果表明:该模型可以在很短时间内实现图像的自动标注,对低频词汇具有较强的鲁棒性,并且在平均召回率、平均准确率、综合值等多项指标上均高于现流行的大多数图像自动标注模型.  相似文献   

11.
一种站点级IPv6地址分配方案   总被引:3,自引:0,他引:3  
IPv4地址分配的缺陷导致当今IPv4网络潜在的低效和浪费问题。为了不重蹈IPv4地址分配不合理的覆辙,在部署IPv6的开始就以谨慎而有效地方法进行地址分配是非常重要的。相关组织对这个问题也提出了若干建议和标准,本文根据最新的RFC文档关于IPv6地址体系结构及分配策略的建议提出了一种可扩展的IPv6全球单播地址分配方案。该方案在RFC3177建议基础上对/48地址前缀的站点级地址块进行分配,该方案不仅具有灵活的可扩展性,而且支持对不同类型的业务实施不同的策略,为全面实现IPv6奠定了基础。  相似文献   

12.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。  相似文献   

13.
常规的通信敏感信息识别方法以敏感词语识别为主,忽略了图片、文本、语音等通信敏感信息,影响最终的信息识别效果。因此,设计了基于多元线性回归数学模型的通信敏感信息快速识别方法。提取通信信息敏感性特征,对通信敏感信息的表现形式进行分析,相同表现形式的信息统一分类,避免信息之间的相互干扰问题。基于多元线性回归数学模型分级识别敏感文档,过滤掉意思表达不清晰或有歧义的信息,并将信息的敏感性进行合并,得到通信信息的敏感性度量,从而快速识别通信信息的敏感性分级。标注通信敏感信息识别序列,根据敏感信息的敏感性标注,赋予对应的标签作为识别序列,按照标注序列逐级识别信息,从而满足敏感信息识别的完整性需求。采用对比实验,验证了该方法的敏感信息识别精准度更高,能够应用于实际生活中。  相似文献   

14.
郁滨  张顺 《通信学报》2011,(9):116-122
通过对蓝牙位置隐私攻击机制和现有保护方案不足的分析,建立了蓝牙地址分级模型,依据此模型设计了蓝牙位置隐私保护方案,与现有方案相比,该协议不仅可以抵抗针对蓝牙位置隐私的窃听攻击、重放攻击、跳频序列攻击、会话地址跟踪攻击、字典攻击和中间人攻击,同时具有较小的计算量和存储需求.  相似文献   

15.
针对激光干扰效果评估受主观经验较大、难以定量评估的问题,提出了一种基于深度学习的激光干扰效果评估方法.首先,对YOLOV5算法进行了整体介绍,其次制作了来自不同角度、不同距离的3020张激光干扰图像;然后,对标注的数据集进行训练,得到了激光干扰效果评估模型;最后,分别在YOLOV5x、YOLOV51、YOLOV5m、YOLOV5s网络模型下训练300次,实验验证了模型的正确性.实验结果表明:利用训练好的模型实现了对激光干扰图像的效果评估,该模型不仅可以自动标注激光干扰区域和进行干扰效果等级评估,同时还融入了传统策略,可以通过计算标注区域面积占整幅图像面积的大小作为辅助决策,实现自动标注激光干扰区域面积所占百分比,识别准确度在80%以上,对激光干扰效果评估具有重要意义.  相似文献   

16.
体育赛事作为公共话题,是网络舆情的来源之一。针对传统词向量语义表示质量不高,深度学习模型特征提取能力不强等问题,提出了基于ERNIE-BiSRU-AT的体育赛事评论文本分类模型。利用预训练模型ERNIE提取词的动态向量表示,BiSRU-AT模块捕获文本的上下文序列特征,并聚焦于对情感极性贡献较大的词。在真实微博女排赛事评论数据集进行实验,ERNIE-BiSRU-AT模型F1分数达到92.35%,高于实验对比的其他模型,验证了模型的有效性。  相似文献   

17.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

18.
余立  李哲  高飞  袁向阳  杨永 《电信科学》2021,37(10):136-142
质差用户识别是降低用户投诉率、提升用户满意度的重要环节。针对当前电信网络系统中业务感知相关的大量结构化及非结构化数据难以有效标注、质差用户标签不完备、现有监督学习模型训练样本不均衡而导致质差识别率低的问题,采用改进自训练半监督学习模型,利用少量满意度低分和投诉用户作为质差用户标签对网络数据进行标注,并通过标签迁移对大量未标注数据进行训练识别质差用户。实验表明,相比于识别准确率高但是训练成本高的全监督学习和识别准确率低的无监督学习,半监督学习可以充分利用无标签样本数据进行有效训练,保证较低训练成本的同时显著提升质差用户识别准确率。  相似文献   

19.
对分类数据挖掘算法进行研究,发现随机森林算法精度高、训练速度快、支持在线学习,因此提出在系统中使用该算法。针对随机森林算法抗噪声能力一般的问题,采用Bagging方法随机选择几组历史客户分级数据作为算法的训练数据,通过随机森林算法训练出分级模型,并通过这个模型对新客户数据进行自动分级。  相似文献   

20.
李战明  苏敏  赵正天  李二超 《电声技术》2007,31(12):44-46,50
基于隐马尔可夫模型(HMM)和改进后的概率神经网络(PNN)模型提出了一种用于语音识别的混合模型,该模型首先利用HMM生成最佳语音状态序列,然后对最佳状态序列进行时间规整,最后通过PNN神经网络进行分类识别。给出了HMM参数训练及时间规整的算法。实验结果表明这种模型比HMM具有更好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号