首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 169 毫秒
1.
使用有序词语移动距离特征进行中文文本蕴含识别   总被引:1,自引:0,他引:1  
提出了一种基于有序词语移动距离的中文文本蕴含识别方法,该方法基于word2vec词向量计算有序词语移动距离特征,进而利用有序词语移动距离特征和传统语言学特征通过支持向量机生成分类模型,然后使用分类模型进行蕴含识别,最终得到蕴含结果.该方法在RITE-VAL评测任务的CS数据上的MacroF1为0.629,超过RITE-VAL的最优评测结果(BUPTTeam,0.615).实验结果表明,该方法可以提升中文文本蕴含识别系统的性能.  相似文献   

2.
针对中文电子病历命名实体识别过程中文本语义表示不充分、特征抽取效率低等缺陷,提出一种融合多特征和迭代扩张卷积的命名实体识别方法。该方法首先构建基于卷积神经网络(CNN)的字嵌入算法,将生成的字向量与词向量等外部特征信息融合后送入迭代扩张卷积神经网络(IDCNN)中进行特征抽取,引入注意力机制加强序列间依赖关系,最后通过CRF解码最优标签序列。该方法在CCKS2017中文电子病历数据集中取得了91.36%的F1值,识别性能优于现有方法,同时验证了融合多特征的语义表示对中文实体识别有一定性能提升。  相似文献   

3.
针对中文微博中的海量文本,提出了利用领域观点词词典和支持向量机的方法对中文微博中的观点句进行识别.构建领域观点词词典,统计了表示中文微博观点句的5个特征,选取特征1,2,3,4进行观点句识别,并将基于支持向量机的3种不同特征组合识别算法与基于领域观点词词典的识别算法进行对比.算法对比结果表明,基于支持向量机的算法对微博观点句的识别效果较好,准确率68.75%,召回率48.71%,F值57.02%.  相似文献   

4.
针对中文微博垃圾特点,提取基于向量空间模型的中文文本相似度、长短链接相似度、发文时间规律等新的分类特征,加入现有的特征集,运用支持向量机方法,训练后得到分类模型.实验结果表明,该方法是一种有效的垃圾微博识别技术.  相似文献   

5.
大量涌现的电商产品评论对企业制定商业决策十分有利, BERT 应用在英语文本情感分析中取得了不错的效果。针对中文电商产品文本评论提出了一个新的融合Stacking 集成思想和深度学习算法模型。首先在文本信息特征提取层使用Chinese-BERT-wwm 生成含有丰富语义信息的动态句子表征向量, Chinese-BERT-wwm 是专门针对中文特点改进后的预训练模型, 具有稳健的中文文本特征信息提取能力, 其次该层同时设计了TextCNN 和BiLSTM捕获文本中局部关键信息特征与语序信息特征, 并将这些特征拼接在一起以获得更全面丰富的句子信息, 最后基于Stacking 集成学习思想使用SVM 对该特征进行分类。为了评估模型效果, 人工标注3 万条具有三类情感极性的中文电商产品文本数据进行实验, 该数据集可广泛用于中文情感分析领域。实验结果表明, 与基线模型相比, 提出的模型可以有效提高中文文本情感极性分类任务的准确率。  相似文献   

6.
提出一种基于词典特征优化和依存关系的时间表达式识别方法。首先针对中文文本时间表达式边界定位不准确及长距离依赖的问题,优化了传统时间词典特征,将时间词典分为时间词词典和时间单位词典;其次针对传统基于机器学习的时间表达式识别方法忽视时间表达式本身结构特点的问题,在优化后的词典特征的基础上提取依存特征,挖掘时间表达式的结构信息;最后综合时间表达式的基本特征、词典特征和依存特征,在条件随机场模型上完成时间表达式识别。在中文语料上进行实验,时间表达式识别达到较好效果。  相似文献   

7.
命名实体识别作为信息抽取的核心任务,能够从文本中识别出各类命名实体。近年来,深度学习技术在字词表示、特征提取等方面上的应用,使中文命名实体识别任务取得了较为丰富的研究成果。目前,基于深度学习的中文命名实体识别技术,在特征提取的深度和模型的精确度上已逐渐超过了传统的基于规则的方法、基于特征工程的有监督方法和基于无监督的方法。围绕深度学习的识别框架,将现有基于深度学习的中文命名实体识别方法分嵌入层、编码层和标签解码层三部分进行介绍,并对未来可能的研究方向进行探讨和展望。  相似文献   

8.
随着信息技术的迅速发展,网络上产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.中文短文本相较于长文本,存在字数少、歧义多、特征稀疏和信息不规范等特点,导致使用传统文本分类技术效果不佳.首先介绍中文短文本分类技术的研究现状;其次围绕中文短文本分类的基本流程和关...  相似文献   

9.
中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地名进行识别,并结合规则对CRF结果进行了修正和补召。为进一步提高对复杂地名的识别精度,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。实验结果显示,所提方法能够将现有的规则集合高效地用于地名识别,与CRF模型配合,提高了识别精度。在测试集上所提出的地名识别算法的准确度都高于包括深度学习算法在内的目前主流的识别算法。  相似文献   

10.
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1. 88%.  相似文献   

11.
微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。  相似文献   

12.
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此, 提出了一种集成算法——新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性, 提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法, 发掘其中大量存在的网络用语以实现更加准确的分词及语义把握; 其次, 引入Simhash算法使得微博文本中的“信息过载”现象得到改观; 再次, 为改善微博文本的简洁性而引起的特征稀疏问题, 采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征; 最后, 通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型, 从而有效构建多粒度微博用户兴趣画像。实验结果表明, 粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%, 63.6%, 相对于基准模型, NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%, 其促进作用优于现有的新词发现方法。  相似文献   

13.
针对方面级情感分析任务不能充分兼顾句法全面性与语义关联性,且大多数研究中使用的图卷积仅考虑信息自上而下的传播,忽略了信息自下而上的聚合等问题,本文提出了基于注意力与双通道网络的情感分析模型.该模型在扩展依存表示的同时使用自注意力获取具有语义关联的信息矩阵,使用双通道网络结合全局句法与语义关联信息,双通道网络分别侧重于自上而下传播的语义特征与自下而上聚合的结构特征.通道内的图卷积输出会与信息矩阵进行交互注意力起到残差互补的作用,然后通过平均池化完成通道内的任务.最后将基于语义与基于结构的决策融合得到最终的情感分类特征.实验结果表明该模型在三个公开数据集上的准确率与F1值均有提升.  相似文献   

14.
为提高雾霾图像清晰化效果并实现去雾能力的泛化,提出一种特征增强及多尺度损失约束的网络结构,并采用增量式训练方法对网络进行训练。网络由教师网络和学生网络构成。通过学习教师网络提取的标注样本注意力信息对学生网络提取的特征进行特征增强;将标注样本多尺度语义特征作为软标签,建立多尺度语义特征损失衡量机制,与全局像素差异损失级联,构建面向特征和像素的损失函数;采用增量式训练方法,教师网络为学生网络平衡不同数据集的新旧知识提供先验约束,使网络保留原有知识的前提下,快速提高对增补数据集的泛化能力。实验结果表明,所提算法在主观视觉效果与客观评价指标上均取得了较好的效果。  相似文献   

15.
为了大幅度提高水印方法的鲁棒性,提出了一种视频语义水印方法,利用高级语义稳定且不易受攻击的特点,将视频语义与水印相结合.该方法将关联规则挖掘看作约束优化问题,使用改进的克隆选择算法进行模糊关联规则挖掘,以提取运动语义和纹理语义,并在线生成动态视频语义水印;根据运动语义自适应确定感兴趣镜头,根据纹理语义自适应确定感兴趣Ⅰ帧,根据人眼视觉掩蔽特性,选择运动剧烈和运动缓慢区域作为感兴趣区域,将水印嵌入在感兴趣Ⅰ帧的亮度子块预测残差离散余弦变换中频系数上;利用视频纹理特征,自适应控制水印嵌入强度.实验和分析表明,该方法不仅对各种常规攻击鲁棒,而且对帧重组、帧内裁剪和帧删除等视频特有攻击表现出强的鲁棒性.  相似文献   

16.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

17.
本体理论与信息编码技术的结合在制造企业领域内的应用,是解决制造企业信息集成的探索性方法.文章深入研究了基于信息编码本体化模型的本体映射方法,分析了映射执行机理,设计了语义相似度的计算方法和流程.①分析了信息编码本体化模型的特点及其失配类型,设计了映射模型的总体框架;②对映射模型的原理及构成要素进行了详细的分析设计;③从语义相似性分析、语义相似算法表达和语义映射与执行3个方面详细设计了本体模型的映射算法;④对映射流程的实现过程和实现案例进行了分析设计,验证了映射模型的有效性;最后,从模型特征、映射依据和映射执行能力3个方面,总结了基于信息编码本体化模型的本体映射技术的特点.  相似文献   

18.
针对孪生网络目标跟踪算法仅使用特征提取网络提取特征,在遮挡、旋转、光照与尺度变化中容易出现跟踪失败的问题,提出整体特征通道识别的自适应孪生网络跟踪算法. 将高效的通道注意力模块引入ResNet22孪生网络中,提高特征的判别能力. 使用整体特征识别功能计算全局信息,提取更为丰富的语义信息,提高跟踪算法精度. 同时,引入自适应模板更新机制,解决遮挡与长期跟踪导致的模板退化问题. 为了验证所提方法的有效性,在OTB2015、VOT2016与VOT2018等公开数据集上进行测试,并与其他跟踪算法进行对比. 结果表明,所提算法在精确度与成功率上表现较好,在背景杂乱、旋转、光照与尺度变化等情况中表现稳定.  相似文献   

19.
提出了一种基于加权特征的图像自动标注方法.该方法首先采用加权特征聚类算法对图像区域进行语义聚类,这种聚类算法根据图像特征的统计分布来计算特征与类别的相关度,增加相关度高的特征的权重,避免聚类算法被弱相关或不相关的特征所支配;然后,根据训练集中样本图像的标注情况建立图像区域与语义关键字的关联;最后,在未标注图像区域给定时,计算每个语义关键字的条件概率,将条件概率最大的语义概念作为图像的标注. 在Corel图像库的数据集上验证了新方法的有效性.  相似文献   

20.
视觉SLAM(simultaneous localization and mapping)是智能车辆领域的研究热点,在包含运动目标干扰或近景特征不显著的场景中,容易产生帧间位姿估计结果精度不足或失效问题.为此,本文提出一种结合场景语义信息和路面结构化特征的SLAM算法.首先,针对上述特殊场景中运动目标干扰的情况,设计带...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号