首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
赵世奇  张宇  赵琳  刘挺  李生 《软件学报》2009,20(7):1746-1755
词汇级复述研究旨在为词汇获取复述.词汇级复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词.提出了一种获取上下文相关词汇级复述的方法.该方法包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认.在《人民日报》语料库上的实验结果表明:(1) 基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3 个正确复述词;(2) 利用二元分类的方法进行复述确认是有效的,其F 值达到0.6023;(3) 利用该方法抽取得到的复述中,有75.11%和98.31%无法通过两种常用的上下文无关方法,即基于辞典和基于聚类的方法来获得.这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法.  相似文献   

2.
复述技术研究综述   总被引:5,自引:0,他引:5  
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了系统的性能。本文主要对复述实例库的构建、复述规则的抽取以及复述的生成等几方面的最新研究进展进行详细的综述,并简要介绍了我们在中文复述方面进行的初步研究工作。在文章的最后一部分,我们对复述技术的难点及未来的发展方向进行了展望,并对全文进行了总结。  相似文献   

3.
复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助.该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语.之后又提出了基于表示学习的候选复述获取方法,通过B...  相似文献   

4.
Previous work on paraphrase identification using sentence similarities has not exploited discourse structures, which have been shown as important information for paraphrase computation. In this paper, we propose a new method named EDU-based similarity, to compute the similarity between two sentences based on elementary discourse units. Unlike conventional methods, which directly compute similarities based on sentences, our method divides sentences into discourse units and employs them to compute similarities. We also show the relation between paraphrases and discourse units, which plays an important role in paraphrasing. We apply our method to the paraphrase identification task. Experimental results on the PAN corpus, a large corpus for detecting paraphrases, show the effectiveness of using discourse information for identifying paraphrases. We achieve 93.1% and 93.4% accuracy, respectively by using a single SVM classifier and by using a maximal voting model.  相似文献   

5.
在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性能具有很强的可比性。因此,该文提出的方法可在保证复述质量的同时,降低复述抽取的成本。
  相似文献   

6.
短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽取技术从中英平行专利语料中抽取短语复述,并利用基于组块分析的技术过滤短语复述抽取结果。而且,为了处理对齐错误和翻译歧义引起的短语复述抽取错误,我们利用分布相似度对短语复述抽取结果进行重排序。实验表明,基于统计机器翻译的短语复述抽取在中英文上准确率分别为43.20%和43.60%,而经过基于组块分析的过滤技术后准确率分别提升至75.50%和52.40%。同时,利用分布相似度的重排序算法也能够有效改进抽取效果。  相似文献   

7.
汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1: 测试集成语复述替换;方法2: 训练集成语复述替换。实验结果表明,方法1可以解决成语未登录词问题,提高成语翻译能力。方法2可以解决训练语料中成语稀疏问题,改善翻译训练模型。  相似文献   

8.
传统的词向量构建方法基于句子内部单词间的共现概率,采用与具体任务无关的无监督训练方法实现。文中提出基于复述关系约束的词向量构建方法,用于改进知识库问答中基于词向量和词袋模型的复述问句评分。首先从复述问句库中按一定规则收集得到满足复述关系的问句对和不满足复述关系的问句对,以问句对之间的相似度不等式表示句子级的语义约束信息,再将该不等式作为约束项加入词向量训练的目标函数中。实验表明,相比传统词向量构建方法,文中方法可以提高问句间复述关系评价的准确度及知识库问答系统中问题回答的准确度。  相似文献   

9.
本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性,来确定每个候选是否成为最终的复述实例。实验结果表明,本文短语复述实例获取方法的综合准确率达到了 60% ,获取了较好的性能。  相似文献   

10.
网络内容安全日益受到各界的关注。自然语言处理中用于判断两个文本语义是否相同的复述检测技术,可以把语义相同表述形式不同的的看法、意见等聚成一类,大幅提高舆情监控的效率;亦可识别出经过改写的不良敏感信息,有效提高不良敏感信息的召回率。本文旨在介绍当前复述检测技术领域的研究进展。首先介绍复述检测的概念、应用场景和研究现状。然后对复述检测方法进行分类,本文从计算方式上将复述检测方法分为基于相似度的方法和基于特征的方法,依次介绍每类方法的特点、优缺点,并详述一些有代表性的方法,重点介绍了基于深度学习的复述检测方法。最后详细分析了复述检测技术当前存在的问题,并对未来的发展趋势进行了展望。  相似文献   

11.
汉语语句的自动改写   总被引:3,自引:1,他引:3  
在基于转换方式的口语机器翻译中,口语的多样性和不规则性加重了转换模块的处理负担。另外,由于缺少双语语料库和懂双语的语言学家,使得翻译知识的开发很困难或成本很高。为了解决这些问题,我们提出了在翻译前对源语言的语句进行自动改写的方法,试图通过加强源语言的处理来分散转换模块的负担。本文介绍了汉日口语机器翻译系统中汉语语句改写模块的开发。作者在分析了口语句子的改写目标后,提出了基于模板匹配的改写方法和从改写语料库中获取改写模板的半自动化方法。作者还介绍了改写模块的设计与实现,以及评价试验和结果。  相似文献   

12.
Cloud computing is a very attractive research topic. Many studies have examined the infrastructure as a service and software as a service aspects of cloud computing; however, few studies have focused on platform as a service (PaaS). According to recent reports, demand for enterprise PaaS solutions will increase continuously. However, different sectors require different types of PaaS applications and computing resources. Therefore, an evaluation and ranking framework for PaaS solutions according to application needs is required. To address this need, this study presents the most essential aspects of PaaS solutions and provides a framework for evaluating the performance of PaaS providers. It also proposes a suitable set of benchmarking algorithms that can help determine the most appropriate PaaS provider based on different resource needs and application requirements. Performance evaluations of three well-known cloud computing PaaS providers were conducted using the analytic hierarchy process and the logic scoring of preference methods.  相似文献   

13.
云计算中调度问题研究综述   总被引:5,自引:3,他引:2  
云计算中资源、任务的调度对云计算的整体性能和运营发展有重要影响。主要讨论云计算中的调度方法和策略问题;归纳了云计算调度的目标与特点,指出了云计算调度研究的主要进展,并从三类调度目标侧重点出发,即以性能为中心、以服务质量为中心和以经济原则为中心,对当前调度研究现状进行了归纳;讨论了现有云计算平台所采用的调度策略,总结了现有调度研究中存在的问题。在此基础上从资源评估、任务建模、动态综合算法和兼顾调度双方利益等方面对云计算调度的研究前景进行了展望。  相似文献   

14.
With the increasing popularity of online support communities for people with disabilities and older people, the research domain of online communities is gaining more and more research potential in the area of inclusive design. There are many studies that investigate social interactions within online communities. However, researchers seem to apply a variety of different methods in very different ways. This makes it often difficult to decide on the appropriate method. In order to provide guidance to researchers in the area of inclusive design, this paper reviews past research in this area and presents a self-contained methodology that is based on qualitative content analysis for studying social interactions in online support communities for people with special needs. A case study from an online community for older people is presented in order to set the theory into context.  相似文献   

15.
近年来,流体可视化已成为计算机图形学领域的一个研究热点,其最重要的目的 之一是旋涡特征的提取与可视化。由于目前仍未有一个通用的定义描述旋涡,导致文献对旋涡 是否存在的判断依据各不相同。为了对流体的旋涡特征提取方法进行较为系统的综述,首先对 旋涡提取研究方向的相关概念进行解释,回顾流体旋涡特征提取方法的发展情况再进行总结, 将常用的旋涡提取方法分为基于点、线、几何和基于机器学习的方法。对于新近提出的参考系 不变性,将旋涡提取方法分为伽利略不变性、旋转不变性和拉格朗日不变性。为了比较不同方 法的优势和缺陷,在综述每一类方法时分别给出若干经典方法,为研究者提供了一个清晰的研 究思路。最后总结每类方法存在的难点和问题,并指出今后的研究重点。  相似文献   

16.
该文将汉语母语者的160份复述文本与其原文进行以小句为单位的逐句比对,发现其中出现了6 484对复述句对。从其生成的方式来看,可以分为改换词语和重铸整句两大类。以语用学原理对这些复述句进行分析,发现与以往研究的复述现象不同的是: 句对间往往不具有相同的逻辑语义真值,但在特定语境下却能传达同一个语用意义,具有等效的语用功能。这说明在自然语言处理中,识别进入真实交际中的复述句不仅依赖语法、语义知识库,还需要借助含有语用知识和语境信息的知识库。  相似文献   

17.
推荐系统偏差的研究众多但零散,相关研究综述较少。因此,根据偏差产生的主体将偏差分为用户行为导致的偏差、物品展示导致的偏差和推荐算法导致的偏差,进而又细分为选择偏差、一致性偏差等九种具体的类别,并给出各个偏差的定义和造成原因;着重对解决偏差问题的相关性推荐方法和因果性推荐方法的研究进行整理,并根据所采用技术手段或者所处训练模型的前、中、后三个阶段进一步分类,分析不同类别研究之间的区别和优势;总结了在常用数据集上的偏差研究概况和新提出的偏差衡量指标;从不同的类别角度对面向偏差问题的推荐方法发展趋势进行分析和展望,希望为推荐系统中的后续的偏差研究提供一定的帮助。  相似文献   

18.
通过分析流媒体在不同类型的群体中的传播过程,本文提出其传播过程类似于传染病在不同类型人群的传播过程,以各型流媒体对不同群体的吸引力(易感群体)、不同类型群体传播流媒体的能力(传染源)、流媒体的传播途径(传播方式)等为要素,建立一种新型流媒体流行度预测模型,用于定性和定量分析流媒体的流行度,进而为运营商的资源分配和部署提供依据。  相似文献   

19.
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整体,主要利用单词外部信息进行语义相似性计算。近些年,出现了一些利用单词内部信息进行单词语义相似性计算的工作,它们使用汉字、部首、词根、词缀等来计算单词语义相似性。利用单词的内部结构解析,解决从细粒度到粗粒度的语义相似性推导,最终计算出单词间的语义相似性是单词语义相似性计算的必然阶段。当从外部信息转向内部信息时,可以改善已有单词语义相似性计算的性能,尤其是为低频词或未登录词的准确语义相似性计算提供了可能性。  相似文献   

20.
大量的研究行为识别方法集中在检测简单的动作,如:步行,慢跑或者跳跃等;针对于打斗或者动作复杂的攻击性行为则研究较少;而这些研究在某些监控场景下非常有用,如:监狱,自助银行,商场等. 传统的暴力行为识别研究方法主要利用先验知识来手动设计特征,而本文提出了一种基于3D-CNN结构的暴力检测方法,通过三维深度神经网络直接对输入进行操作,能够很好的提取暴力行为的时空特征信息,从而进行检测. 从实验结果可以看出,本文方法能较好地识别出暴力行为,准确率要高于人工设计特征的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号