首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。  相似文献   

2.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作.  相似文献   

3.
基于双语对齐口语语料的翻译词典的自动生成   总被引:2,自引:0,他引:2  
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法,首先利用释义词典过渡双语文本,得到“过滤词典”,继而通过统计共现概率,计算出所有词对的相互关联值,并且生成“汉英(英汉)相互关联值表”,对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对,分别赋予信任值1,然后统计每个候选词对人信任值作为翻译词典的分级标准,得到4个不同级别的词典,其中“过滤词典+4级词典”在召回率为93.5%的情况下,正确率达到93.389%。  相似文献   

4.
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在使用大规模语料库的基础上,同时寻求其他可以提高系统性能的方法。针对以上问题,提出一种把双语词典应用在统计机器翻译中的方法,不仅优化了词对齐的准确率,而且得出质量更高的翻译结果,在一定程度上缓解了数据稀疏问题。  相似文献   

5.
基于词典的汉藏句子对齐研究与实现   总被引:1,自引:0,他引:1  
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为 81.11%。  相似文献   

6.
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。  相似文献   

7.
基于语料库与层次词典的自动文摘研究   总被引:2,自引:1,他引:1  
宋今  赵东岩 《软件学报》2000,11(3):308-314
自动文摘研究作为自然语言处理研究的一个重要且实用的分支,目前逐渐成为Internet信息检索等应用领域的重要研究课题之一.该文提出的基于语料库的文摘试图将传统的基地语言学分析的文摘方法和基于统计的文摘方法的优点结合在一起.基于语料库的文摘方法的实质即以系统外的分析代价换取系统内的算法效率.该文描述的算法给出了基于层次词典的关键字提取和基于语料库的自动文摘的实现.  相似文献   

8.
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。  相似文献   

9.
汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。  相似文献   

10.
对文本情感分析研究进行总结,从情感词抽取、语料库和情感词典构建、主观分析三个方面对文本情感分析研究相关文献进行梳理、评述,最后介绍了实际应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号