首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 327 毫秒
1.
名词短语的识别是自然语言处理领域中非常重要的子任务。而名词短语的识别性能与识别效率一直是研究人员关注的焦点,为了达到兼顾二者的目的,提出了一种基于辅助短语标记识别名词短语的方法。首先,在分析了短语不同分类体系的基础上,构建了一种映射公式,并根据该公式对不同分类体系的短语类别之间进行映射。然后,根据映射结果及短语的概率分布进行辅助短语标记的组合。实验结果表明,本文的方法在提高F值的基础上,有效地降低了系统的时间开销。  相似文献   

2.
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1. 88%.  相似文献   

3.
用基于Abney的方法来识别汉语的基本名词短语,定义了一套比较适合计算机处理的汉语组块体系,设计实现了一种基于规则、能够分析有限层次的组块自动识别算法.  相似文献   

4.
针对中文医疗电子病历命名实体识别中,传统的字或词向量无法很好地表示上下文语义以及传统RNN并行计算能力不足等问题,提出了一个基于BERT的医疗电子病历命名实体识别模型。该模型中的BERT预训练语言模型可以更好地表示电子病历句子中的上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部实体的卷积编码有更好的识别效果,多头注意力(MHA)多次计算每个字和所有字的注意力概率以获取电子病历句子的长距离依赖。实验结果表明,BERT-IDCNN-MHA-CRF模型能够较好地识别电子病历中的医疗实体,模型的精确率、召回率和F_1值相比于基线模型分别提高了1.80%,0.41%,1.11%。  相似文献   

5.
为了解决现有的车型识别算法对车型特征描述不充分的情况,提出融合注意力机制的高效率网络车型识别算法. 利用高效率网络中的复合缩放方式来平衡网络的深度、宽度和分辨率,将深度可分离卷积集成到基础特征提取模块中来提高模型准确率. 增加双通道的残差注意力机制来关注图片中的关键信息,获得含有更加丰富语义信息的特征图. 在网络的末端添加单独的softmax分类器,使用标签平滑正则化对损失函数进行处理,减小模型过拟合的问题. 在BIT-Vehicles数据集上进行实验,结果表明,提出方法的平均分类准确率为96.83%,较改进前的模型提高了1.11%,优于现有DCNN、Faster-CNN的改进算法,较Faster R-CNN提升了7.16%.  相似文献   

6.
基于决策树的汉语基本名词短语识别   总被引:1,自引:0,他引:1  
:提出了一种基于汉语树库。采用决策树的方法识别汉语基本名词短语。其核心思想为:从语料库中自动抽取基本名词短语的词性模板以及其相应的上下信息,采用ID3算法形成相应的决策树。该方法有效地引入了学习机制,提高了系统的性能和识别速度,具有较好的精确率和召回率。  相似文献   

7.
从搜狗日志语料出发,分析语料特点,以词语本身、词性信息、位置信息、查询词串频次和音节数为特征,提出了基于SVM_HMM模型的短语自动识别方法,对"V+N"、"V+V"短语进行多重对比实验,实验验证了上下文信息量的增加能提高短语识别效率,证实了音节数、位置特征对实验效果的低影响力,为搜索引擎用短语词典的构建提供技术支持,为进一步的短语类别识别研究提供方向性指导。  相似文献   

8.
针对中文零代词识别任务,提出了一种基于深度神经网络的中文零代词识别模型. 首先,通过注意力机制利用零代词的上下文来帮助表示缺省的语义信息. 然后,利用Tree-LSTM挖掘零代词上下文的句法结构信息. 最后,利用语义信息和句法结构信息的融合特征识别零代词. 实验结果表明,相对于以往的零代词识别方法,该方法能够有效提升识别效果,在中文OntoNotes5.0数据集上的F1值达到63.7%.  相似文献   

9.
以微博数据为研究对象,对反语识别特征进行研究。针对微博特点和反语识别特性,构建包括情感短语、表情符号等在内的多种特征。试验表明,在不平衡数据集上反语特征的识别准确率、召回率和F值等评价标准分别比现有反语特征分别提高了0.34%、0.74%和0.18%,而在平衡数据集上反语特征的识别准确率、召回率和F值则分别提高了0.44%、2.54%和0.14%。  相似文献   

10.
用于视频交通检测监控系统的车牌自动识别算法研究   总被引:2,自引:0,他引:2  
针对视频交通检测监控系统对车牌自动识别算法的要求,提出了基于Hough变换改进的几何失真矫正方法以及基于马尔可夫随机场模型和遗传算法的函数优化二值化算法.实验表明,采用这两项改进算法能够有效地提高车牌自动识别的正确率和识别速度,其功能和技术指标满足视频交通信息检测监控系统的要求.  相似文献   

11.
学术论文英语题名主要有短语题名、名词性分句题名、句子题名、组合题名四种.短语题名又有名词短语题名、动名词短语题名、介词短语题名、不定式短语题名等四种.句子题名又有疑问句题名、陈述句题名、祈使句题名三种.组合题名由主题名和副题名两部分组成,根据主、副题名之间的关系又可分为内容型、方法型、设问型、答复型等.  相似文献   

12.
名词短语接受还是拒绝数量词的限定,能直接反映人对外界认知的机制.对于英汉语数量词对名词短语有无标记的对比研究表明人们易把在认知上凸显的事物看作有界个体事物,在语法结构上以"显眼形式"即用数量词标记,在该层面上英汉两种语言有同质性;在认知结构上不很凸现的事物易被看作无界事物,可用"不显眼形式",但两种语言在透明度上存在异质性--汉语用无标记的光杆名词来表达,透明度大;英语则依据语境而定,隐晦度大.  相似文献   

13.
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此, 提出了一种集成算法——新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性, 提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法, 发掘其中大量存在的网络用语以实现更加准确的分词及语义把握; 其次, 引入Simhash算法使得微博文本中的“信息过载”现象得到改观; 再次, 为改善微博文本的简洁性而引起的特征稀疏问题, 采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征; 最后, 通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型, 从而有效构建多粒度微博用户兴趣画像。实验结果表明, 粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%, 63.6%, 相对于基准模型, NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%, 其促进作用优于现有的新词发现方法。  相似文献   

14.
汉语是有调语言,声调主要表现在FO曲线的变化上,FO曲线特征在单字中变化简单,在连续语音中变化复杂,但连续语音主要由单字,二字组和少量多字组成组成的,因此对连续语音音调的研究可以分解为单字,二字组和多字组的声调研究,本文主要研究单字和二字组声调。对于辨认声调,我们并不关心FO曲线的具体取值,而是对它的变化趋势变化清楚明晰,也便于计算机处理,另外,本文总结了FO曲线中的一些特征点活动规律,这些规律对辨认真调有重要作用。  相似文献   

15.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

16.
为了提高新型冠状病毒肺炎(COVID-19)检测的效率和准确性,本文提出一种自动识别COVID-19胸部X射线(Chest X Ray,CXR)图像的网络模型(MHRA-RCNet)。在ResNet50的基础上,首先采用残差卷积对CXR图像中形状复杂的感染区域进行局部特征提取;其次选择在ResNet50的二、三阶段引入多头关系聚合模块,以增强对全局信息的建模能力;为了进一步将局部信息和全局信息进行融合,以提高特征的表达能力和特征之间位置的相关性,本文还在ResNet50的最后阶段引入了空洞视觉Transforme模块,有助于识别CXR图像中复杂的病变区域;最后将融合后的特征以串联方式输入全局平均池化层进行全局空间信息整合,通过多层感知机进行图像分类并进行可视化分析。在公开访问的COVID-19 Radiography Database数据集上进行图像分类,实验结果显示,MHRA-RCNet模型在多项指标上均优于其基础模型ResNet50和其他分类模型,其整体准确率、精确度、灵敏度、特异性和F1分别提高到98.12%、97.36%、96.60%、98.47%和96.98%,证明了MHRA-RCNet模型在图像分类任务上的有效性。另外,MHRA-RCNet模型对新冠肺炎识别的精确度、灵敏度和特异性分别为98.32%、97.64%和99.59%,具有较好的识别效果和分类性能。  相似文献   

17.
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。  相似文献   

18.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号