首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
形式背景需要从实际的数据源中提取。当数据源为无结构的中文文本时,必须选择如何对其进行表示。目前主流的中文文本表示方法主要采用以词语为特征项的向量空间模型(VSM),其主要缺陷是忽略了自然语言中词语之间的语义联系,无法表达文本的语义信息。讨论了一种改进方法,其特征是:选择知网(Hownet)作为知识库,采用相似词集集合代替单一特征词,建立中文文本的概念向量空间。对于用概念向量空间表示的中文文本,可以方便地根据用户的具体要求提取所需的形式背景。以214篇交通类中文文本为实例阐释了该改进方法的实际应用。  相似文献   

2.
华镕 《自动化博览》2007,24(4):98-100
5 五种IEC语言 Unity Pro有五种语言可以对Atrium、Premium、M340以及Quantum自动化平台进行编程.三种图形设计语言包括梯形图(LD)、功能块图(FBD)、顺序功能图(SFC)或者Grafcet;两种文本设计语言包括结构化文本(ST)、指令表(IL).  相似文献   

3.
王文琦  汪润  王丽娜  唐奔宵 《软件学报》2019,30(8):2415-2427
研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得DNN出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于DNN的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以生成对抗样本,用于在黑盒情况下实施对抗样本攻击.采用真实的数据集(京东购物评论和携程酒店评论),在长短记忆网络(LSTM)和卷积神经网络(CNN)这两种DNN模型上验证该方法的有效性.实验结果表明,生成的对抗样本能够很好地误导中文文本的倾向性检测系统.  相似文献   

4.
针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERT-PGN)。首先,利用BERT预训练语言模型结合多维语义特征获取词向量,从而得到更细粒度的文本上下文表示;然后,通过PGN模型,从词表或原文中抽取单词组成摘要;最后,结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议(NLPCC2017)单文档中文新闻摘要评测数据集上的实验结果表明,与PGN、伴随注意力机制的长短时记忆神经网络(LSTM-attention)等模型相比,结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成,Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。  相似文献   

5.
基于多尺度小波纹理分析的文字种类自动识别   总被引:16,自引:0,他引:16  
在一个国际化的环境中,各种语言(language)、文字(script)需要识别和处理。在这篇文章中,提出了一种基于多尺度非冗余小波纹理分析的文字种类自动识别技术,在实验中选用了六种语言(中文、英文、日文、韩文、俄文和印度文)不同格式和字体的文本图像,以证实这种技术的能力,计算复杂性分析和实验表明:基于多尺度非冗余小波纹理分析和文字种类自动识别技术,具有较小的计算复杂性,而且对格式和字体的变化较稳  相似文献   

6.
中国中文信息学会与国际中文计算机学会于2003年8月3日~6日在沈阳市召开第20届东方语言计算机处理国际学术会议(The 20th International Conference on Computer Processing of Oriental Languages),会议由东北大学承办。 一、征文范围 计算语言学的理论研究;汉语的词汇、句法和语义;语料库建设、语料加工技术及基于语料库的语言分析技术;汉语的文本分析与生成;机器翻译系统、技术及评测方法;文本智能检索、文本自动分类、文本过滤及自动文摘、文本挖掘、面向WWW服务及应用的语言处理技术、语义Web;面向数字图书馆的语言处理…  相似文献   

7.
针对实际应用场景中如何在大批量图像文件中快速找到中文印刷体文本图像文件进行OCR (Optical Character Recognition)识别的问题,本文在笔画宽度变换算法(SWT)的基础上,设计了针对中文文本固有特点的启发式规则,并将水平投影技术与离散傅里叶变换相结合,提出了一种适合倾斜角度在-90至90°之间的中文印刷体文本图像文件识别技术.实验结果显示,在1606张测试集图像文件的识别中,本文算法针对文本图像文件整体识别F值(F-Measure)为0.95,平均识别耗时为0.65 s.  相似文献   

8.
面向中文文本数据库的信息抽取机制   总被引:2,自引:0,他引:2  
中文文本文件的句子中常包含有一些有价值的结构化数据。本文提出了一种针对中文文本结构化信息的抽取机制;抽取文本中的匹配模式,并将抽取后的匹配模式作为匹配模板放入知识库中,作为知识库中的规则。并在此基础上提出了一种面积文本数据库的一种新的信息查询机制:以知识库中的规则作为基础,查询文本数据库中的数据时,先在知识库中找相应的规则(即匹配模板),然后根据匹配模板在相应的文本数据库中查找相应的数据信息。  相似文献   

9.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

10.
本文通过调用Turboc提供的BIOS中断函数int86()的子功能。介绍用C语言设计的文本方式中文下拉式菜单。此菜单具有速度快,模块小、人机界面友好等特性。  相似文献   

11.
胡诗国 《微机发展》1997,7(1):32-34
本文通过调用Turbo C提供的BIOS中断函数int86()的子功能,介绍用C语言设计的文本方式中文下拉式菜单。此菜单具有速度快,模块小,人机界面友好等特性。  相似文献   

12.
本文通过调用TurboC提供的BIOS中断函数int86()的子功能,介绍用C语言设计的文本方式中文下拉式菜单,此菜单具有速度快,模块小,人机界面友好等特性。  相似文献   

13.
针对THUCNews的中文新闻文本标签分类任务,在BERT预训练语言模型的基础上,提出一种融合多层等长卷积和残差连接的新闻标签分类模型(DPCNN-BERT)。首先,通过查询中文向量表将新闻文本中的每个字转换为向量输入到BERT模型中以获取文本的全文上下文关系。然后,通过初始语义提取层和深层等长卷积来获取文本中的局部上下文关系。最后,通过单层全连接神经网络获得整个新闻文本的预测标签。将本文模型与卷积神经网络分类模型(TextCNN)、循环神经网络分类模型(TextRNN)等模型进行对比实验。实验结果表明,本文模型的预测准确率达到94.68%,F1值达到94.67%,优于对比模型,验证了本文提出模型的性能。  相似文献   

14.
近年来,随着信息全球化的影响,社交网络文本上的多语言混合现象越来越普遍。许多中文文本中混杂着其他语言的情况已很常见。绝大多数现有的自然语言处理算法都是基于单一语言的,并不能很好地处理多语言混合的文本,因此在进行其他自然语言处理任务之前对文本进行预处理显得尤为重要。面对网络文本语义空间双语对齐语料的匮乏,提出一种基于话题翻译模型的方法,利用不同语义空间的语料计算网络文本语义空间的双语对齐概率,再结合神经网络语言模型将网络混合文本中的英文翻译成对应中文。实验在人工标注的测试语料上进行,实验结果表明,通过不同的对比试验证明文中的方法是有效的,能提升翻译正确率。  相似文献   

15.
张云婷  叶麟  唐浩林  张宏莉  李尚 《软件学报》2024,35(7):3392-3409
对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本, 敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本. 研究对抗文本生成方法, 能对深度神经网络的鲁棒性进行评价, 并助力于模型后续的鲁棒性提升工作. 当前针对中文文本设计的对抗文本生成方法中, 很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击. 面向中文文本分类任务, 提出一种针对中文BERT的攻击方法Chinese BERT Tricker. 该方法使用一种汉字级词语重要性打分方法——重要汉字定位法; 同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换. 实验表明, 针对文本分类任务, 所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下, 且其多种攻击性能明显强于其他基线方法.  相似文献   

16.
王鉴全  季绍波 《计算机科学》2014,41(11):256-259
词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自动构词算法的有效性。  相似文献   

17.
姜灵敏 《电脑学习》1994,(1):33-33,38
随着改革开放和市场经济的发展,我们与海外侨胞、台湾及港澳同胞的交往日益增多,在与他们的通信和文件交流中,常常需要将原来横式排列的中文文本文件转换成纵向竖式输出;在一些文字排版、诗词及有特殊输出要求时也会碰到这种情况。为此,笔者用FOXBASE”数据库语言设计了一个程序,能比较理想地解决横式排列的中文文本按经式输出的问题。(程序附后)。程序设计的基本思想是:1.先将文本文件的各文本行转存到一个数据库中(数据库仅一个字段,字段宽度取决于一纵列打印多少个汉字);2.每次从库中取出40条记录打印(所取记录条数取…  相似文献   

18.
随着自然语言处理(NLP,natural language processing)技术的快速发展,语言模型在文本分类和情感分析中的应用不断增加。然而,语言模型容易遭到盗版再分发,对模型所有者的知识产权造成严重威胁。因此,研究者着手设计保护机制来识别语言模型的版权信息。现有的适用于文本分类任务的语言模型水印无法与所有者身份相关联,且鲁棒性不足以及无法再生成触发集。为了解决这些问题,提出一种新的适用于文本分类任务模型的黑盒水印方案,可以远程快速验证模型所有权。将模型所有者的版权消息和密钥通过密钥相关的哈希运算消息认证码(HMAC,hash-based message authentication code)得到版权消息摘要,由HMAC得到的消息摘要可以防止被伪造,具有很强的安全性。从原始训练集各个类别中随机挑选一定的文本数据,将摘要与文本数据结合构建触发集,并在训练过程中对语言模型嵌入水印。为了评估水印的性能,在IMDB电影评论、CNEWS中文新闻文本分类数据集上对3种常见的语言模型嵌入水印。实验结果表明,在不影响原始模型测试精度的情况下,所提出的水印验证方案的准确率可以达到 100%。即使在模型微调和剪枝等常见攻击下,也能表现出较强的鲁棒性,并且具有抗伪造攻击的能力。同时,水印的嵌入不会影响模型的收敛时间,具有较高的嵌入效率。  相似文献   

19.
基于统计与词汇语义特征的中文文本蕴涵识别   总被引:1,自引:0,他引:1  
对中文这种意合型语言而言,为了进行文本内容理解和文本语义推理,必须识别文本间的蕴涵关系.针对中文文本,在文本预处理的基础上,提取中文文本的相关统计特征和词汇语义特征;基于获取的统计与词汇语义特征,使用支持向量机设计并实现分类器对中文文本对间蕴涵关系进行分类.实验结果表明,基于统计与词汇语义特征进行中文文本蕴涵关系识别是可行的.  相似文献   

20.
文本校对是自然语言处理领域的重要分支。深度学习技术因强大的特征提取与学习能力被广泛应用于中文文本校对任务。针对现有中文文本错误检测模型忽略句子连续词间的局部信息、对于长文本的上下文语义信息提取不充分等问题,提出一种基于多通道卷积神经网络(CNN)与双向门控循环单元(BiGRU)的字词级文本错误检测模型。利用Word2vec向量化待检错文本,采用CNN挖掘待检错文本的局部特征,使用BiGRU学习待检错文本的上下文语义信息及长时依赖关系,并通过Softmax处理后输出文本分类结果以判断文本中是否含有字词错误,同时采取L2正则化和dropout策略防止模型过拟合。在SIGHAN2014和SIGHAN2015中文拼写检查任务数据集上的实验结果表明,与基于长短时记忆网络的文本错误检测模型相比,该模型的检错F1值提升了3.01个百分点,具有更优的字词级文本错误检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号