期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈波孙乐韩先培《中文信息学报》2019,33(5):24-30

现阶段的语义解析方法大部分都基于组合语义,这类方法的核心就是词典。词典是词汇的集合,词汇定义了自然语言句子中词语到知识库本体中谓词的映射。语义解析一直面临着词典中词汇覆盖度不够的问题。针对此问题,该文在现有工作的基础上,提出了基于桥连接的词典学习方法,该方法能够在训练中自动引入新的词汇并加以学习,为了进一步提高新学习到的词汇的准确度,该文设计了新的词语—二元谓词的特征模板,并使用基于投票机制的核心词典获取方法。该文在两个公开数据集(WebQuestions和Free917)上进行了对比实验,实验结果表明,该文方法能够学习到新的词汇,提高词汇的覆盖度,进而提升语义解析系统的性能,特别是召回率。相似文献

2.

基于Wikipedia的语义元数据生成 总被引：1，自引：0，他引：1

韩先培赵军《中文信息学报》2009,23(2):108-114

语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。相似文献

3.

基于排序学习的微博用户推荐

彭泽环孙乐韩先培石贝《中文信息学报》2013,27(4):96-103

该文在分析总结影响微博用户推荐的四大类信息,包括用户的内容信息、个人信息、交互信息和社交拓扑信息的基础上,提出一个基于排序学习的微博用户推荐框架,排序学习的本质是用机器学习中的分类或回归方法解决排序问题,该框架可以综合各类信息特征进行用户推荐。实验结果表明 (1)融合多个特征综合推荐通常可以取得更好的推荐效果;(2)基于用户个人信息、交互信息、社交拓扑信息的推荐效果均好于基于用户内容的推荐效果。相似文献

4.

ACL HLT2011会议评述

韩先培《中文信息学报》2011,25(5):127-128

1 概况计算语言学学会(The Association for Computational Linguistics,ACL)旗下的ACL年会是国际上最具影响的计算语言学及自然语言处理学术会议,而人类语言技术会议(Human Language Technology,HLT)则是人类语言处理的重要会议.2011年,第49届ACL-HLT联合会议于6月19～24日在美国波特兰市(Portland)成功召开.波特兰是美国俄勒冈州最大的城市,同时也是默尔特诺马郡的郡府,拥有“玫瑰之城”的美誉.除ACL-HLT主会议外,还有一个会议(CoNLL)、15个专题研讨会(Workshop)和6个专题讲座(Tutorial)同期举行.本次会议共吸引了创会议记录的来自世界各地的超过1 100研究人员参加(总1 068个人注册了会议,另外有额外115人只注册了Workshop和Tutorial). 相似文献

5.

图像的文本描述方法研究综述

马龙龙韩先培孙乐《中文信息学报》2018,32(4):1-12

随着深度学习技术的兴起,自然语言处理与计算机视觉领域呈现相结合的趋势。作为融合视觉和语言的多模态研究任务,图像的文本描述可应用于基于文本内容的图像检索、网络图像分析等众多场景中,从而受到了研究界和企业界的广泛关注。图像的文本描述方法可归纳为三大类: 基于生成的方法、基于检索的方法和基于编码—解码的方法。该文详细介绍了这三类方法各自具有代表性的工作,并进一步分析了各方法的优劣;然后对图像文本描述方法的相关数据集、评测标准和主要开源工具包进行了阐述;最后,分析了图像的文本描述中需要解决的关键技术问题。相似文献

6.

基于分布式表示和多特征融合的知识库三元组分类

安波韩先培孙乐吴健《中文信息学报》2016,30(6):84-89

三元组分类是知识库补全及关系抽取的重要技术。当前主流的三元组分类方法通常基于TransE来构建知识库实体和关系的分布式表示。然而, TransE方法仅仅适用于处理1对1类型的关系,无法很好的处理1对多、多对1及多对多类型的关系。针对上述问题,该文在分布式表示的基础上,提出了一种特征融合的方法—TCSF,通过综合利用三元组的距离、关系的先验概率及实体与关系上下文的拟合度进行三元组分类。在四种公开的数据集(WN11、WN18、FB13、FB15K)上的测试结果显示,TCSF在三元组分类上的效果超过现有的state-of-the-art模型。相似文献

7.

基于翻译模型的查询会话检测方法研究

张振中孙乐韩先培《中文信息学报》2015,29(4):95-102

查询会话检测的目的是确定用户为了满足某个特定需求而连续提交的相关查询。查询会话检测对于查询日志分析以及用户行为分析来说是非常有用的。传统的查询会话检测方法大都基于查询词的比较,无法解决词语不匹配问题(vocabulary-mismatch problem)——有些主题相关的查询之间并没有相同的词语。为了解决词语不匹配问题,我们在该文提出了一种基于翻译模型的查询会话检测方法,该方法将词与词之间的关系刻画为词与词之间的翻译概率,这样即使词与词之间没有相同的词语,我们也可以捕捉到它们之间的语义关系。同时,我们也提出了两种从查询日志中估计词翻译概率的方法,第一种方法基于查询的时间间隔,第二种方法基于查询的点击URLs。实验结果证明了该方法的有效性。相似文献

8.

基于布局特征与语言特征的网页主要内容块发现 总被引：1，自引：0，他引：1

韩先培刘康赵军《中文信息学报》2008,22(1):15-21

本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。相似文献

9.

面向新类型人名识别的数据增强方法

宋希良韩先培孙乐《中文信息学报》2019,33(6):72-79

人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F₁值分别提升了至少12个百分点和6个百分点。相似文献

10.

基于多相似性度量和集合编码的属性对齐方法

伍家豪陈波韩先培孙乐《中文信息学报》2021,35(4):35-43

属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一.现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些方法仍存在以下两个问题:相似性度量不全面和属性实例信息未被充分利用.针对上述问题,该文提出了基于多相似性度量的属性对齐模型,通过多个角度设计相似性度量方法来获... 相似文献