首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在自然语言处理中词性标注和词干提取是最重要的任务。文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域。该系统的实现为低资源少数民族智能化研究工作做出了贡献。  相似文献   

2.
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。  相似文献   

3.
针对公安领域大数据分析业务的需求,尝试为公安警情文本建立专业语料库,并以此作为NER(命名实体识别)等任务的基础性工作.结合公安警情领域专家的指导建议,制定命名实体和实体关系的标注体系及详细标注规范.搜集整合国标及公安部标准相关标准资源,并利用标注工具对接处警文本进行多轮标注.通过构建特征要素库汇总实体信息,进而对公安...  相似文献   

4.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

5.
针对面向主流价值观的文本质量评价这一全新且较为复杂的任务,本文依据主流价值观对文本质量进行定义,构建了一个面向主流价值观的文本质量评价数据集。为了缓解人工标注数据的压力以及解决域内数据获取困难的问题,提出了一个基于无监督数据增强框架的文本质量评价方法。实验证明,在数据量较小时,能显著提升模型性能。为了获取更多数据,自主构建了一个大规模中文微博检索库,通过检索对数据集进行扩充。最终模型的F1值达到86.2%,相比BERT提升1.22%。  相似文献   

6.
自然语言处理中机器对文本词性标注常用的方法有:基于规则方法、基于统计的方法和基于统计和规则相结合的方法三种。文章对三者用于藏文词性自动标注时在描述方式、标注效率和标注正确率等方面进行了对比研究分析,结果显示基于规则和统计相结合的方法在藏文词性自动标注中具有明显的优势,是目前较理想的方法,此方法用于藏文词性自动标注可以较大地提高正确率。  相似文献   

7.
该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。  相似文献   

8.
基于条件随机场的汉语词性标注   总被引:1,自引:0,他引:1  
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.  相似文献   

9.
李妍 《移动信息》2024,46(2):216-219
文本分析是自然语言处理领域中的重要任务,其意义在于将大量文本数据分为不同类别,以便更好地理解和管理信息。文本分析的应用极为广泛,可用于垃圾邮件过滤、情感分析、新闻分类等领域,对信息组织和检索具有重要影响。然而,文本分析面临着文本数据维度高、语义复杂性、标注数据不足等挑战,为解决以上问题,文中深入研究了机器学习技术在文本分析中的应用,以期能提高文本分类的性能和效率。  相似文献   

10.
自然场景的弯曲文本检测技术多用于智慧旅游场景.针对当前弯曲文本检测存在的受到卷积神经网络的感受野大小和提取特征能力有待提升的影响,网络难以识别自然场景图像中的文本和非文本区域问题,提出了一种基于注意力机制和空洞卷积的自然场景下文本检测方法 (Resnet Squeeze and Excitation Dilation Jaccard Progressive Scale Expansion Network, RSDJ-PSE). RSDJ-PSE引入软注意力机制SE块在检测网络的骨干网络中,进一步增强了特征提取能力,接着引入空洞卷积到骨干网络中,扩展了卷积的感受野且不增大参数量,最后使用Jaccard系数替换Dice系数在后处理算法中,提升了该文本检测方法的F值.在定向文本数据集ICDAR2015、标准弯曲文本数据集CTW1500和Total-Text数据集上的检测结果表明:与8种检测方法对比,该方法具有最好的文本检测性能.  相似文献   

11.
高学攀  杜楚  吴金亮 《无线电工程》2020,(12):1050-1054
针对军事领域的命名实体识别问题,提出一种基于BiLSTM-CRF的实体识别方法,旨在识别军事文本中的人名、军用地名、军事机构名、武器装备、设施目标、部队番号等军事命名实体。使用词嵌入方法自动学习中文字符的分布式表示作为模型输入;利用双向长短时记忆(Bi-directional Long-Short Term Memory,BiLSTM)神经网络处理输入的字符向量序列,统筹上下文语义学习任务特征;将学习到的特征接入线性链式条件随机场(CRF)进行军事命名实体标注,获得命名实体识别结果并输出。在人工构建数据集上的实验结果表明,提出的方法能够很好地完成军事命名实体识别任务。  相似文献   

12.
深度学习网络对文本情感分析具有重要意义,通过神经网络可以深层次挖掘文本信息,捕获文本情感。针对单模型神经网络结构单一、无法充分提取文本特征的问题,首先提出一种融合注意力机制的双通道复合神经网络(Attention-DRNN),在嵌入层利用word2vec方法进行层嵌入,融入注意力机制对输入词向量进行动态加权。其次,采用双通道结构,利用Text-CNN提取文本局部特征、Bi-LSTM提取文本全局特征,并进行特征融合。然后,通过softmax分类器进行分类。最后,在两个标准数据集上进行测试,通过与LSTM、Bi-LSTM、RNN、Text-CNN单模型神经网络进行对比实验。实验表明Attention-DRNN网络在情感分类任务上具有较好的效果。  相似文献   

13.
交通知识与人的生命安全息息相关。针对如何方便快捷的获取交通知识,设计并实现了以即时通讯软件微信为人机交互媒介的移动智能自动问答系统。首先,对文本进行特征向量提取,并对同义词进行归一化,消除同义词对查询准确率的干扰;然后,综合词频和词性信息计算文本关键特征的权值;最后采用BM25模型计算问题与知识库中文本信息的相似度,返回与问题最相似的答案。实验表明,本系统的移动性强,人机交互友好,查询准确度高。  相似文献   

14.
基于主动学习和否定选择的垃圾邮件分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
胡小娟  刘磊  邱宁佳 《电子学报》2018,46(1):203-209
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.  相似文献   

15.
黄宜华  尤晓白 《今日电子》1997,(2):65-67,77
本文介绍了一指规文本到超文本自动转换系统的设计与实现,该系统可对具有自然目录结构的常规文本,在目录自动识别和标注的基础上,自动转换为具有顺序层次的超文本文档。  相似文献   

16.
赵进  杨小军 《电信科学》2021,37(6):125-131
随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了一种基于GRW模型和FastText模型的文本分类方法。首先通过GRW模型对投诉文本进行特征选择,提取有效特征词;然后构建基于FastText模型的用户投诉文本分类方法;最后在公开数据集和运营商已标注的投诉文本数据集上进行实验。结果表明,基于GRW和FastText模型的文本分类方法比朴素贝叶斯、双向LSTM和Bert模型在准确率、Kappa系数及汉明损失方面的性能有较大提升。  相似文献   

17.
对抗样本生成是一种通过添加较小扰动信息,使得神经网络产生误判的技术,可用于检测文本分类模型的鲁棒性。目前,中文领域对抗样本生成方法主要有繁体字和同音字替换等,这些方法都存在对抗样本扰动幅度大,生成对抗样本质量不高的问题。针对这些问题,该文提出一种字符级对抗样本生成方法(PGAS),通过对多音字进行替换可以在较小扰动下生成高质量的对抗样本。首先,构建多音字字典,对多音字进行标注;然后对输入文本进行多音字替换;最后在黑盒模式下进行对抗样本攻击实验。实验在多种情感分类数据集上,针对多种最新的分类模型验证了该方法的有效性。  相似文献   

18.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

19.
方德坚 《电子世界》2013,(23):178-178,F0003
本文提出了基于文本分类的主观题自动评分模型。模型采用文本词性相似度和文本浅层相似度作为分类器的条件属性,在一定程度上提高了文本的语义理解。通过对已有文本的学习,使用考生分数作为分类类别构建决策树分类器。将待测文本输入决策树分类器从而实现答案的分类,即完成自动评分。通过与人工阅卷过程对比,验证了系统是有效可行的,符合人工阅卷的过程。  相似文献   

20.
近年来,全民考编成为时代趋势,大量政府机构职位如公务员、军队文职等启动线上报考招聘工作。但大量繁杂的岗位信息也为求职者选岗带来了困难。针对选岗慢、选岗难等问题,基于少量人工标注的岗位文本信息,提出了一种新型的精准岗位推荐算法。通过特征构建,明确不同招考信息的匹配规则;通过基于文本分类的ERNIE-BiLSTM-CRF训练实体识别模型,实现长文本岗位描述信息的隐含条件抽取;提出改进的基于动态词向量的加权余弦相似度算法,解决文本相似度计算中无关信息噪音问题。在自标注的数据集上的实验结果表明,上述条件抽取模型的F1值较最优算法提升14.97%,相似度匹配命中率和DCG值分别提升20.5%和22.9%,可有效实现基于小样本的人岗模糊匹配,为求职者提供准确、鲁棒的文职岗位推荐服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号