首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
于东  金天华  谢婉莹  张艺  荀恩东 《软件学报》2020,31(12):3772-3786
文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选12 000个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分析归纳了7种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为7分类的蕴含类型识别和蕴含语块边界-类型识别任务,在深度学习模型上达到69.19%和62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法.  相似文献   

2.
文本语块识别典型方法的比较与分析   总被引:1,自引:1,他引:1  
文本语块识别在自然语言处理领域具有重要作用.以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低.因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果.  相似文献   

3.
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。  相似文献   

4.
根据视频相机拍摄的多种画面进行识别是一个具有挑战性的研究课题。由于相机可以记录并利用画面之间的覆盖区域来改善文本图像的质量,以识别文本中较长的线段。在相机抖动产生的失真得到补偿之后,视频画面就应该被记录,如拼接。本文提出了一种拼接识别技术来描述视频拼接和文本识别,同时,通过基于程序的最佳算法使问题得到解决。实验显示,当画面受到各种失真,如旋转、按比例描述、转换以及非线性相机运动速率波动时,本文的方法可以获取良好的拼接图像,其失真的精确评估达到90%,字符识别的正确率超过95%。  相似文献   

5.
为了能比较不同方法的性能,常常希望在公共的训练集和测试集上进行语块识别。但是,用于实验的公共训练集和测试集往往规模较小而且具有领域的局限性。因而,在跨领域的真实语料情况下,语块识别的精确率有很大的下降。采用真实开放语料,设计多组实验研究不同的词性标注结果、不同领域的语料和不同的知识库对语块识别的影响,考察基于多Agent结构的分布式英语语块识别策略在实际系统中应用的可能性。实验表明,基于多Agent结构的分布式英语语块识别策略在真实开放语料下F测度达到了92%,基本能够满足实际应用的需要。  相似文献   

6.
高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。  相似文献   

7.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

8.
文本蕴含是自然语言处理的难点,其形式、类型复杂,知识难以概括。早期多利用词汇蕴含和逻辑推理知识识别蕴含,但该方法反对特定类型的蕴含有效。近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段。该文研究文本蕴含成因形式,归纳为词汇、句法异构、常识和社会经验三类,并以句法异构蕴含为研究对象。针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务。该文制定句法异构蕴含语块标注规范,建立标注数据集。在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法。实验结果表明,该文提出的深度学习模型能有效发现蕴含语块,为下一步的研究提供可靠的基线方法。  相似文献   

9.
文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16 224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型。该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型。  相似文献   

10.
提出了一种新的语块对应算法 ,该算法是建立在实词对应基础上来划分语块的 ,这样可以保证语块正确对应的同时 ,有效地避免了双语语块边界划分不一致的情况。实验结果表明 ,该算法能够获得令人满意的结果  相似文献   

11.
从定量数据到定性概念的转换必然涉及到样本数据的划分问题,当样本数据维数较高时,对其合理划分是从中提取定性规则的难点问题。针对此问题,改进了尺度云变换算法,提出二维尺度云变换算法,使之可以处理二维数据。还给出了二维T-S型云控制器的设计,并结合一组实例数据,验证了算法的有效性。仿真结果表明,该算法可以较好地实现对原始数据空间的划分,提取的定性规则数量少,易于理解;由该方法提取的规则构建的T-S型云控制器能较好地复现原始数据分布,误差较小。  相似文献   

12.
一种基于模糊关联规则挖掘的攻击识别系统   总被引:1,自引:0,他引:1  
降低攻击识别中的漏报率和误报率是现在一个急需解决的问题。论文分析了攻击识别的需求与模糊关联规则挖掘的有关概念,并且以此为基础构建了一个攻击识别系统。该系统不但能够很好地满足攻击识别的要求,而且还能同时对异常攻击和滥用攻击进行识别,并且在很大程度上降低了攻击识别中的漏报率和误报率,极大地增强了信息系统的生存力。  相似文献   

13.
基于文字特征的文档碎纸片半自动拼接   总被引:4,自引:0,他引:4       下载免费PDF全文
分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征、表格特征特点,以及碎纸片内文字行特征、表格线特征的获取方法,提出了基于碎片文字行特征或表格特征的碎片半自动拼接算法。根据算法研制了C语言计算机程序,用该程序对一实际例子进行了拼接试验,试验结果表明该方法效果良好。  相似文献   

14.
无纸化考试的优越性已为大多数人所共识,但目前的一些系统仅局限于简单题型,如选择、判断题的考核,在某种程度上阻碍了无纸化考试的推广与发展.本文结合实例,从题库维护、出卷、答卷和阅卷四个方面详细阐述如何设计通用型的无纸化考试系统,如何实现主观题和作图题的设计与评分.  相似文献   

15.
无纸化考试的优越性已为大多数人所共识,但目前的一些系统仅局限于简单题型,如选择、判断题的考核,在某种程度上阻碍了无纸化考试的推广与发展。本文结合实例,从题库维护、出卷、答卷和阅卷四个方面详细阐述如何设计通用型的无纸化考试系统,如何实现主观题和作图题的设计与评分。  相似文献   

16.
入侵检测系统的检测性能很大程度上取决于规则库的更新.网络安全的日益严峻对入侵检测系统的规则提取提出了更高要求.提出了将关联规则算法运用于入侵检测系统规则库更新的设想,阐述了传统的关联规则算法,并针对其入侵检测系统中的应用进行改进.以Snort为例,详细描述了用改进的关联规则算法挖掘网络数据集,然后将结果转换为入侵检测规则的过程,并以实验说明了应用关联规则构建入侵检测系统规则库的可行性.  相似文献   

17.
针对模糊规则分类中数据边界硬性划分的局限性问题,建立了云-神经网络模型,并提出了基于云-神经网络的模糊规则分类算法.在不影响数据模糊性和随机性的基础上,将数据转化为规则,并利用神经网络的学习能力,进行多属性模糊规则分类,与传统方法相比,该方法在保证数据模糊性和随机性的基础上,提高了模型精度和分类准确率,应用实例表明了该方法的有效性和可行性.  相似文献   

18.
设计一种基于规则和词汇语义匹配的模型合成框架,采用形式化方法描述模型及合成过程,提出语义匹配算法和合成规则,自动识别匹配元素并确定合成规则,根据规则自动生成合成模型。该框架较好地处理了模型合成中模型种类的多样性及模型命名的灵活性问题。  相似文献   

19.
对介词用法自动识别的研究是现代汉语虚词用法知识库建设的重要组成部分.在已有工作的基础上,分析对比了规则方法与统计方法的优劣,提出一种规则与条件随机场统计模型相结合的介词用法自动识别算法.该算法在2000年2月-5月《人民日报》语料的介词用法自动识别测试中,准确率比单独使用规则方法和统计方法分别提高了14.64%及5.22%.  相似文献   

20.
一种基于多层关联规则的推荐算法研究   总被引:2,自引:0,他引:2  
余小鹏 《计算机应用》2007,27(6):1392-1393
提出一种基于多层关联规则(MAR)的推荐算法,着重解决目前推荐算法的稀疏性问题和可扩展性问题。该算法采用多层关联规则挖掘用户对商品的偏好,并建立用户偏好预测模型。实验表明该算法性能优于其他推荐算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号