首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于统计的词对齐方法需要大规模的双语语料作为输入,难以避免数据稀疏的问题并且算法时间开销大。针对句子或段落级的实时性对齐需求,提出了一种基于双向词典和语义相似度计算的高效词对齐算法,通过采用动态组块切分和匹配、基于知网的语义相似度计算、基于最大匹配的冲突消解和剪枝消歧等策略,有效地解决了由于翻译的灵活性和多样性带来的近似译文的词对齐问题。实验表明,该算法不仅继承了基于词典词对齐算法的优点,同时还改进了传统基于词典词对齐算法的不足,有效提升了词对齐的正确率和召回率,在小规模双语语料和实时性对齐方面具有更好的适用性。  相似文献   

2.
当前视觉词袋(Bag of Visual Word,Bo VW)模型中的视觉词典均由k-means及其改进算法在原始局部特征描述子上聚类生成,但随着图像数据的迅速增长,在原始局部特征空间中进行聚类存在着运行时间较长和占用内存较大的问题.针对着这些问题,提出了一种基于视觉词典和位置敏感哈希的图像检索方法.首先,选择合适的生成二进制哈希码的哈希算法,将局部特征点保持相似性地映射为二进制哈希码.然后,在二进制哈希码上进行k-means,生成视觉词为二进制码的视觉词典.最后,用视觉单词的词频向量表示图像内容,根据词频向量对图像进行检索.在SIFT-1M和Caltech-256数据集上的实验结果表明,本方法可以缩短视觉词典生成的时间,占用更少的存储空间,与传统的基于k-means的视觉词典算法相比,图像检索性能基本不变.  相似文献   

3.
针对G IS中文查询语句中词的多义性造成查询语句有时理解困难的问题,在系统词典的基础上进行了词的表层语义识别算法的研究,提出了句子链栈的存储结构,并通过分别扫描系统词典和单词词典来确定表链和句子链.实验测试了算法的正确性和时间、空间复杂度,其正确率可达90%以上,剩余部分可以在深层语义分析子系统中得到完善;空间复杂度的测试证明了本文提出的链栈存储结构较参考文献中的固定栈优势;表层语义识别的结果也证明了本文算法的有效性.  相似文献   

4.
在分析混合内联算法的基础上,对该算法在模式映射过程中缺乏语义映射问题,提出一种保持语义约束的改进混合内联算法.改进的混合内联算法采用XML Sche-ma模式,在语义映射过程中将XML Schema模式中的默认值、12种刻面约束facts等对应到关系模式中的取值约束,实现保持取值约束的模式映射.通过实例分析,说明改进的混合内联算法可以使映射后的关系模式保留更贴近的语义信息.  相似文献   

5.
随着计算机网络和多媒体技术的迅猛发展,针对大规模多模态图像检索的需求变得越来越广泛。如何有效解决多模态性,语义鸿沟和大规模性已经成为Web图像检索中的三大重要挑战。最近提出的语义标注和哈希技术可以分别用来解决语义鸿沟和大规模性,但它们无法涵盖目前存在的所有问题。在本文中,我们提出了语义关联多模态哈希用于多模态图像检索,它能够综合语义学习和哈希技术的优点。首先,通过基于图学习的半监督学习来增强训练样本的语义。然后构造所有样本的语义关联并将其保存在哈希函数中。学习出的哈希函数能够将所有模态均映射到统一的哈希空间中,从而支持多模态检索。在两个真实图像数据集上的实验结果证明了所提出方法的检索效果和效率。此外,实验结果也证明学习语义关联能够提高检索效果。  相似文献   

6.
基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。  相似文献   

7.
本体映射是本体异构的主要解决方法,而概念相似度计算则是本体映射的关键.针对目前概念相似度算法缺少语境信息的问题,提出了一种基于贝叶斯分类的概念相似度算法.该方法利用概念注释、借助语义词典Wordnet对概念扩充,利用贝叶斯分类技术确定相似概念,在一定程度上提高了相似度计算的准确率.实验表明该方法是切实可行的.  相似文献   

8.
针对现有中文分词算法无法为移动搜索提供用户兴趣偏好信息的现状,提出一种改进的正向最大匹配中文分词算法。该算法基于逐字二分的分词词典机制,添加词分类信息,在词典中存储了每个词条的分类信息,分词时采用改进的次字区位码哈希非均匀分段机制进行正向最大匹配分词。实验结果表明,与逐字二分法相比,改进的分词算法其存储空间增加了13%,但时间效率提高了20%左右,且分词后可同时提取出词条的分类信息。  相似文献   

9.
本体理论与信息编码技术的结合在制造企业领域内的应用,是解决制造企业信息集成的探索性方法.文章深入研究了基于信息编码本体化模型的本体映射方法,分析了映射执行机理,设计了语义相似度的计算方法和流程.①分析了信息编码本体化模型的特点及其失配类型,设计了映射模型的总体框架;②对映射模型的原理及构成要素进行了详细的分析设计;③从语义相似性分析、语义相似算法表达和语义映射与执行3个方面详细设计了本体模型的映射算法;④对映射流程的实现过程和实现案例进行了分析设计,验证了映射模型的有效性;最后,从模型特征、映射依据和映射执行能力3个方面,总结了基于信息编码本体化模型的本体映射技术的特点.  相似文献   

10.
在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存人数据库.分句匹配算法是语言翻译处理领域的双语句子对齐过程,它将网页净化后获得的有用信息进行匹配,产生最终的双语语料.对分句匹配算法进行了描述,并且研究了匹配算法的实现过程.  相似文献   

11.
Construction method of Chinese sentential semantic structure   总被引:1,自引:1,他引:0  
A new method is proposed for constructing the Chinese sentential semantic structure in this paper.The method adopts the features including predicates,relations between predicates and basic arguments,relations between words,and case types to train the models of CRF + + and dependency parser. On the basis of the data set in Beijing Forest Studio-Chinese Tagged Corpus( BFS-CTC),the proposed method obtains precision value of 73. 63% in open test. This result shows that the formalized computer processing can construct the sentential semantic structure absolutely. The features of predicates,topic and comment extracted with the method can be applied in Chinese information processing directly for promoting the development of Chinese semantic analysis.The method makes the analysis of sentential semantic analysis based on large scale of data possible. It is a tool for expanding the corpus and has certain theoretical research and practical application value.  相似文献   

12.
情态动词是体现和表达情态意义的一种重要方式,在不同的语域里情态动词具有不同的情态值,表达不同的情态意义,核心情态动词作为情态动词中的主要部分,集中体现了各种情态意义,在情态动词中具有类典型的特点。本文基于语料库,对比分析英语法律语篇和英语政治新闻语篇中核心情态动词的分布和使用规律,发现其本质差别。并揭示两类语篇中的核心情态动词是如何为其语篇服务的,进而揭示其背后所隐含的权力关系及意识形态意义。  相似文献   

13.
A novel microblog summarization approach via enriching contextual features on sentencelevel semantic analysis is proposed in this paper.At first,a Chinese sentential semantic model (CSM) is employed to analyze the semantic structure of each microblog sentence.Then,a combination of sentence-level semantic analysis and latent dirichlet allocation is utilized to acquire extra features and related words to enrich the collection of microblog messages.The simlilarites between the two sentences are calculated based on the enriched features.Finally,the semantic weight and relation weight are calculated to select the most informative sentences,which form the final summary for microblog messages.Experimental results demonstrate the advantages of our proposed approach.The results indicate that introducing sentence-level semantic analysis for context enrichment can better represent sentential semantic.The proposed criteria,namely,semantic weight and relation weight enhance summary result.Furthermore,CSM is a useful framework for sentence-level semantic analysis.  相似文献   

14.
本文首先阐述了科技文本与语篇及语篇特征的概念,然后着重对英汉科技文本的结构性特征和非结构性语篇特征进行分析比较,得出的结论为英汉科技文本表现出相似的结构性语篇特征,而其非结构性特征却表现出相当大的差异。对英汉科技文本语篇特征的对比分析可以帮助了解英汉科技文本如何实现其语篇的衔接与连贯,从而帮助提高英汉科技文本的阅读和翻译水平。  相似文献   

15.
专门用途英语有其独特的语言特征。本文依据功能语言学理论,基于法律语篇语料库,探讨了英语核心情态动词在法律语篇中的分布规律及其出现频率,旨在说明核心情态动词在不同语域出现的频率会有所不同,并且其情态值也不是固定不变的。  相似文献   

16.
面向汉英机器翻译的双语语料库的建设及其管理   总被引:7,自引:0,他引:7  
近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。  相似文献   

17.
大量涌现的电商产品评论对企业制定商业决策十分有利, BERT 应用在英语文本情感分析中取得了不错的效果。针对中文电商产品文本评论提出了一个新的融合Stacking 集成思想和深度学习算法模型。首先在文本信息特征提取层使用Chinese-BERT-wwm 生成含有丰富语义信息的动态句子表征向量, Chinese-BERT-wwm 是专门针对中文特点改进后的预训练模型, 具有稳健的中文文本特征信息提取能力, 其次该层同时设计了TextCNN 和BiLSTM捕获文本中局部关键信息特征与语序信息特征, 并将这些特征拼接在一起以获得更全面丰富的句子信息, 最后基于Stacking 集成学习思想使用SVM 对该特征进行分类。为了评估模型效果, 人工标注3 万条具有三类情感极性的中文电商产品文本数据进行实验, 该数据集可广泛用于中文情感分析领域。实验结果表明, 与基线模型相比, 提出的模型可以有效提高中文文本情感极性分类任务的准确率。  相似文献   

18.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

19.
汉英旅游文本在表述的思维方式、动词的语态、动词的名词化、用词的重复和语句结构的关联等方面都存在着巨大的差异性,很多英语旅游文本在汉译的时候,如果不根据英汉差异做针对性的调整,往往让中国读者感到不适应。因此,在翻译教学中适当引进旅游文本作为教学素材,不但能够帮助学生了解和掌握英汉两种语言的差异性,更能够为学生的翻译实践活动提供理论上的引导和支撑,甚至可以探索新的翻译教学模式,提高翻译的教学效度。  相似文献   

20.
通过对菲律宾语的词法分析、句法分析、语义分析等基础研究和机器翻译、拼写检查、情感分析等应用技术的研究进展进行分析,得知菲律宾语仍属于语言资源较为缺乏的低资源语言,在菲律宾语自然语言处理领域,现有研究比较宽泛但不深入,与英语、汉语等语种的自然语言处理研究相比,还存在较大差距;相较而言,英菲平行语料库构建及其机器翻译的研究取得了较大进展,而其他领域研究进展相对缓慢。总体来说,通过跨语言处理技术构建跨语言平行语料库,推动深度学习应用于菲律宾语自然语言处理的方法研究,探讨基于规则、图模型、结构等方法对菲律宾语文本自动摘要的适用性,将是未来菲律宾语自然语言处理的主要研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号