首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,进一步优选能准确刻画图像内容的单词,完成第2次关键词精化.设计词序列\  相似文献   

2.
张红斌  姬东鸿  尹兰  任亚峰 《计算机科学》2016,43(5):269-273, 287
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。  相似文献   

3.
基于语义依存关系的汉语语料库的构建   总被引:4,自引:1,他引:4  
语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。  相似文献   

4.
图像自动标注是计算机视觉与模式识别等领域中的重要问题.针对现有模型未对文本关键词的视觉描述形式进行建模,导致标注结果中大量出现与图像视觉内容无关的标注词等问题,提出了基于相关视觉关键词的图像自动标注模型VKRAM.该模型将标注词分为非抽象标注词与抽象标注词.首先建立非抽象标注词的视觉关键词种子,并提出了一个新方法抽取非抽象标注词对应的视觉关键词集合;接着根据抽象关键词的特点,运用提出的基于减区域的算法抽取抽象关键词对应的视觉关键词种子与视觉关键词集合;然后提出一个自适应参数方法与快速求解算法用于确定不同视觉关键词的相似度阈值;最后将上述方法相结合并用于图像自动标注中.该模型能从一定程度上解决标注结果中出现的大量无关标注词问题.实验结果表明,该模型在大多数指标上相比以往模型均有所提高.  相似文献   

5.
汉英双语平行语料库的词义标注   总被引:1,自引:0,他引:1  
本文充分利用当前HowNet 资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。  相似文献   

6.
苏菲  马翠霞  戴国忠 《计算机工程与设计》2004,25(10):1641-1643,1647
提出了一种句法语义一体化的语言分析方法,句法分析和语义理解时采用并行方法,利用两者之间的相互关系实现句法和语义的分析。针对自然语言理解在几何特定领域的约束性,以依存语法为基础,利用标注过的语料库知识,采用规则统计模型,对已经标注好词性语义的句子词串进行句法语义一体化分析,生成符合数学规范的数学表达式。实验证明,建立的系统对100个几何描述的句子进行测试,得到的正确率为98%,在几何领域具有良好的实用性,能够满足实际的需要。  相似文献   

7.
在作文评测中,句间逻辑合理性是评价语言运用能力的一项重要指标。从文本分类的角度,对作文段落句间逻辑合理性进行定性分析。依据逻辑合理的段落其句子的位置是相对固定的,将现有的基于传统、基于深度学习的文本分类算法应用在中小学人物类作文段落句间逻辑合理性的判别上,实验结果表明使用分类模型对段落句间逻辑合理性判别是有效的。在此基础上,进一步提出代表句子特征的关键词筛选方法,实验结果表明使用句首关键词、句尾关键词或两者结合作为句子特征的方法,比句子全部关键词更能代表句子信息,明显提高判别的准确率。  相似文献   

8.
倪娜  刘凯  李耀东 《计算机科学》2012,39(9):175-179
未标注或遗失关键词给科技文献的分类和导航工作带来一定困难,针对这一问题,提出了基于文献摘要内容的关键词自动标注算法。该算法使用标注过关键词的文献摘要作为训练文本,分别采用语言模型、LatentDirichletAllocation(LDA)模型、ProbabilisticAuthor-Topic模型及语言模型+LDA模型的组合模型对训练集中的摘要文本和关键词建模,建立关键词和组成摘要文本特征词之间的关系,然后利用这些模型在未标注关键词的科技文献摘要上进行关键词的预测。在中英文数据上的实验结果表明,自动标注的关键词能较好地反映科技文献的内容;在所有模型中,语言模型+LDA组合模型的效果最佳。  相似文献   

9.
针对传统基于转换的词性标注方法中规则学习速度过慢的问题提出了一种对训练语料库进行动态划分的算法。该算法根据规则之间的冲突和依赖关系对训练语料库进行动态划分,减小了搜索空间。在保证拉丁蒙文词性标注正确率的前提下提高了规则学习速度。经过10000拉丁蒙文句子语料库的对比测试,发现该方法在规则学习中所花费的时间仅为原方法的32%。  相似文献   

10.
图像标注的目标是针对每幅图像,利用相对应的文本信息进行描述,从而能够对海量的图像数据进行有效的管理和检索。尽管图像标注已经被研究了若干年,然而它仍然是机器视觉和机器学习领域中一个非常具有挑战性的问题。各种各样的算法被用于图像的标注工作。对目前基于关键词的图像标注的一些常用的算法和模型进行了综述,包括传统的基于分类的方法、相关模型、主题模型、基于随机场的上下文信息的处理以及利用Internet上海量的数据来辅助图像标注等等。讨论了目前图像标注研究中遇到的一些具有挑战性的问题。  相似文献   

11.
针对传统翻译系统在时态翻译中不准确的问题,结合当前的机器学习算法,提出一种基于DBN的平行语料库时态翻译方法.为实现该方法,首先对时态标注模型和DBN基本理论进行介绍,并提出汉英语句时态翻译的思路;而在进行DBN平行语料库特征提取的过程中,采用自动时态标注算法对时态进行标注,并对得到的数据进行时态树编码;然后以编码数据...  相似文献   

12.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

13.
基于问句语料库的受限领域自动应答系统   总被引:3,自引:0,他引:3  
自动应答系统中对用户所提问句的理解是系统实现的关键,同样也是一个难点,通过在受限领域内建立问句语料库来协助理解用户问句是一种非常有效的实现方法。文章分析了建行领域业务咨询系统的问句收集、分词和词性标注、语义标注、问句语料统计等问句语料库的建设过程,并详细介绍了采用词向量空间法和语义向量空间法从问句语料库中寻找和目标问句相似问句的计算方法及提取答案的实现过程。  相似文献   

14.
框架消歧指的是在给定的句子中根据目标词的上下文语境,自动识别出有歧义的目标词所属的框架。针对传统FrameNet框架消歧方法使用单一分类模型时没有考虑到目标词之间的联系而导致隐性特征难以被提取,以及分类结果比较依赖分类模型的性能及参数的设置的问题,提出了一种基于SVM和CRF双层模型的FrameNet框架消歧方法。该方法利用分治思想将框架消歧问题转化为对目标词的分类及序列标注。第一层SVM模型对输入的语料进行粗分类,得到分类标签序列;第二层CRF模型将文本序列和SVM模型的分类标签序列作为输入,将分类标签加入特征模板进一步进行序列标注。实验选取了FrameNet语义知识库中能够激起多个框架的18个词元,2?614条例句作为实验数据。实验结果显示,与传统方法相比,基于SVM和CRF的双层模型有较高的准确率,证明了该方法是一种较为适用的FrameNet框架消歧方法。  相似文献   

15.
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。  相似文献   

16.
该文提出了一种藏语句子相似度的计算方法,即采用散列单词倒排索引和基于句长相似度粗选的算法,快速从语料库中筛选出候选句子的集合,散列单词倒排索引能够有效提高算法的查找速度;再采用基于词形和连续单词序列相似度的多策略精选算法,可以有效衡量两个藏语句子的相似程度。实验结果证明算法是有效的。  相似文献   

17.
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。  相似文献   

18.
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。  相似文献   

19.
自动文摘系统中一个关键的问题是找出能构成摘要的重点句子。找出这些句子的方法很多,但用机器学习的方法却较少,该文提出了一种关于文摘句式的自动学习方法。该方法以经过简单的预处理的若干语句为训练样本集,以正例句为基点进行由底向上的泛化学习,抽象出关于句式的一般概念,形成句式规则集,作为判断文中哪些语句可作为文摘句的有效手段。这是文摘系统实现的核心部分。  相似文献   

20.
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号