首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
面向专利文献的中文分词技术的研究   总被引:1,自引:0,他引:1  
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。  相似文献   

2.
目前,自然语言处理已从句法、词法层面走向轻量级语义层面。针对中文陈述句的自然语言处理,传统Lambek演算无法解决中文陈述句灵活语序的问题,而现有的方法加入模态词、新连接词等后,又进一步增加了已经是NP-hard的Lambek演算的复杂性,因此并不适合计算机的相关处理。基于此,采用加标动词匹配的Lambek演算对中文陈述句灵活语序进行处理。加标动词匹配算法的时间复杂度低,使得计算机及其程序能有效地对中文陈述句灵活语序进行处理,并能通过Curry-Howard对应理论与λ-演算引入轻量级语义处理。  相似文献   

3.
该文在中文专利语料的基础上,统计分析了中文专利文献中有标记并列结构的内部特征和外部特征。内部特征主要考察了中文专利文献中有标记并列结构的并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中出现的外部环境。  相似文献   

4.
为了能够更加准确地对语句结构进行划分、对语句表达的内容进行判断,提出了一种全新的基于权值的计算算法,在完善中文分词的基础上对语句进行情感分析。首先利用中文分词算法对句式结构进行分割,然后依据词性对词库进行扩展,词库对句式中干扰词汇进行过滤,最后利用全新的权值计算算法对语句情感进行准确分析。经有效测试结果表明,情感分析准确率较高,并广泛适用于网络舆情分析等应用中。  相似文献   

5.
Nutch的中文问题研究   总被引:1,自引:0,他引:1  
主要讨论Nutch中存在的各种各样的中文处理问题,修改并实现Nutch的中文分词、中文文档处理、FTP中文搜索等功能,解决了Nutch在搜索时Web显示中文乱码的问题.  相似文献   

6.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

7.
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。  相似文献   

8.
9.
方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节。目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力。 随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现。然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法。特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇。最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响。  相似文献   

10.
在这信息大爆炸的时代,电子产品不断推陈出新,不管是工作还是生活,计算机的应用无处不在,它的革新大大提高了我们的工作效率与生活质量。当今不仅要计算机专业的人懂得使用,对于非计算机专业的计算机应用教学也显得至关重要。只有提倡一种新型的教育教学,利用多媒体与计算机网络等手段进行教学培养,从而广泛的提高每个人的计算机应用能力,让每个人都能走在时代发展的前沿。  相似文献   

11.
古文翻译系统的设计与实现   总被引:1,自引:0,他引:1  
古文翻译对研究古代历史文化、继承前人成果等有重要的意义。该文结合机器翻译研究方法和技术,设计实现了一个古文自动翻译系统,能够实现部分古文献的翻译和标注。  相似文献   

12.
机器翻译中汉语的形式和语义分析二题   总被引:2,自引:1,他引:2  
汉语分析是英汉和汉英机器翻译的难点。这篇文章提出了分析汉语的两个难题:一个是区分句法结构的歧义和多义,另一个是寻找句子成分之间的隐性语义关系和句式的意义。  相似文献   

13.
面向机器翻译的中国手语的理解与合成   总被引:4,自引:0,他引:4  
徐琳  高文 《计算机学报》2000,23(1):60-65
自然语言与可视化语言之间的自动翻译研究具有重大的现实意义和学术研究价值,它是一个崭新的、有发展前任的研究领域。该文从机器翻译的角度来考察汉语和中国手语之间的相同之处和差异,探讨两种语言在语序、句子结构、短语结构、特殊词类等方面的特点,建立了汉语中国手语机器翻译的一系列规则。在此基础之上,采用规则解释方法实现了一个汉语至可视化语言中国手语的翻译系统。  相似文献   

14.
WNCT:一种WordNet概念自动翻译方法   总被引:1,自引:1,他引:1  
WordNet是在自然语言处理领域有重要作用的英语词汇知识库,该文提出了一种将WordNet中词汇概念自动翻译为中文的方法。首先,利用电子词典和术语翻译工具将英语词汇在义项的粒度上翻译为中文;其次,将特定概念中词汇的正确义项选择看作分类问题,归纳出基于翻译唯一性、概念内和概念间翻译交集、中文短语结构规则,以及基于PMI的翻译相关性共12个特征,训练分类模型实现正确义项的选择。实验结果表明,该方法对WordNet 3.0中概念翻译的覆盖率为85.21%,准确率为81.37%。  相似文献   

15.
该文研究了一种规则和统计相结合的中文地址翻译方法。首先利用区划词典、关键字词典和模式表进行分词及词语类型标注,并根据词语类型划分地址单元;然后,以统计翻译模型为基础结合少量的翻译词典和人工模板对地址单元进行翻译;最后,将地址单元的翻译结果以逆序粘合在一起,形成最终译文。实验表明,利用该方法翻译中文地址能够取得较好地翻译效果。  相似文献   

16.
机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术。本文结合863 项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。  相似文献   

17.
所谓破坏性创新即颠覆性创新,属于一种商业理念.本文基于计算机辅助翻译生态系统设计,详细分析了破坏性创新的具体表现,即业余翻译者、计算机辅助翻译技术、及其翻译技术、翻译众包等等.研究结果表明,翻译领域的破坏性创新,极有可能突破翻译服务产业既有形态,实现翻译服务行业的长远创新性发展.  相似文献   

18.
汉法机器翻译的难点分析   总被引:2,自引:0,他引:2  
对汉法翻译中存在的不足和研究中遇到的难点和重要部分进行了分析,这些难点分布于机器翻译的各个阶段,对其中的一些难点,该文探讨了可能的解决办法。  相似文献   

19.
为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。  相似文献   

20.
未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号