期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

现代汉语虚词知识库的研究 总被引：1，自引：0，他引：1

昝红英张坤丽柴玉梅俞士汶《中文信息学报》2007,21(5):107-111

现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。相似文献

2.

面向多种语料的语气词用法规则问题研究

下载免费PDF全文

周溢辉昝红英穆玲玲《计算机工程与应用》2011,47(28):135-138

语气词用法的自动识别是现代汉语语气词知识库的核心问题。使用规则方法研究了语气词用法在多种语料库中的识别问题,从多种语料库中的语气词实际用法入手,修改和完善了语气词用法词典和语气词用法规则库。实验数据表明,经过修改和完善,语气词用法在各语料库中的识别准确率有所提高,增强了语气词知识库的适用性。相似文献

3.

基于规则的现代汉语常用助词用法自动识别

韩英杰昝红英张坤丽柴玉梅《计算机应用》2011,31(12):3271-3274

目前已有的助词研究成果很难直接应用于自然语言处理的机器识别。在现代汉语词典、规则库、语料库“三位一体”的助词知识库基础上,采用基于规则的方法进行了现代汉语常用助词用法的自动识别。对比规则优化前后的实验结果证明,对用法的规则进行细化、扩充和调序可以有效地提高助词用法识别的准确率和召回率,减轻人工标注的工作量,提高大规模语料库的质量。相似文献

4.

基于助词用法的汉语词性、分词错误自动发现*

韩英杰张坤丽昝红英柴玉梅《计算机应用研究》2011,28(4):1318-1321

在构建助词知识库、标注大规模语料过程中使用了基于规则的助词用法自动标注的方法;对标注后的语料,发现基于规则的助词用法自动标注方法能够自动发现语料的部分词性、分词错误.这些错误的发现对研制高质量的语料库起到了积极的促进作用,并将语料加工深度向前推进. 相似文献

5.

汉语虚词用法在依存句法分析中的应用研究昝

昝红英张静杰娄鑫坡《中文信息学报》2013,27(5):35-43

虚词在现代汉语中占有重要地位,虚词与词序一起构成现代汉语的句法手段,对句法分析有重要的影响。依存句法分析是自然语言处理领域研究的热点,为了提高依存关系的识别效果,该文考虑将虚词用法应用到依存关系的识别过程中。通过对虚词用法的研究,以及对依存句法分析各种依存关系识别情况的分析,发现并列关系与虚词中的连词关系密切。作者在并列关系识别过程中加入连词的用法信息,从而提高了并列关系的识别效果。实验结果表明,包含连词的并列关系的LAS及UAS分别提高了3.43%和2.29%。相似文献

6.

基于大规模语料库的现代汉语动宾搭配知识库构建

王贵荣饶高琦荀恩东《中文信息学报》2021,35(1):34-42,53

汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识库。相似文献

7.

汉语语气词用法的自动识别研究 总被引：1，自引：0，他引：1

下载免费PDF全文

周溢辉穆玲玲昝红英袁应成《计算机工程》2010,36(23):155-157,161

研究现代汉语语气词用法的自动识别问题,从语气词的实际用法入手,构建语气词用法词典和语气词用法规则库,利用语气场构建语气词用法规则库。采用1998年1月的《人民日报》分词与词性标注语料,利用语气词用法规则库进行语气词的自动识别。实验结果证明,语气词的识别准确率为78.433%。相似文献

8.

基于模糊理论的造纸专家系统--知识库的设计 总被引：1，自引：0，他引：1

王岭娥谢锦秋徐晓光《微计算机信息》2006,22(2):203-204

基于模糊理论的造纸专家系统(PMES)的研究对于保障设备的稳定运行,提高产品质量具有重要的意义.本文探讨了模糊理论在知识表示方面如何和专家系统进行有效地结合,并对PMES的知识库进行设计.对知识库采用知识分级的方式,使知识的表达更具有层次性.通过各个知识表中的相互约束关系保证知识的一致性. 相似文献

9.

大规模现代汉语标注语料库的加工规范 总被引：14，自引：5，他引：9

俞士汶朱学锋段慧明《中文信息学报》2000,14(6):58-64

北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。相似文献

10.

常用现代汉语副词用法自动识别研究

张坤丽赵丹昝红英柴玉梅《中文信息学报》2012,26(6):65-72

副词以其功能和用法的繁杂多样,引起了众多学者的研究。该文以构建三位一体的副词用法词典、副词用法规则库和副词用法语料库为基础,首先基于规则的方法对副词用法自动识别进行研究,对《人民日报》语料中的副词识别准确率达到了84.86%;然后,基于统计的方法,用不同特征模板、不同上下文窗口以及不同模型等对语料中常用副词进行识别。实验结果表明,基于统计的方法对副词用法自动识别研究有较好的效果。相似文献

11.

基于Petri 网知识库维护方法的实现 总被引：3，自引：0，他引：3

刘晓霞《小型微型计算机系统》2002,23(7):859-861

知识库的维护是知识系统的关键部分，直接关系到系统能否正常运行，本文介绍了基于Petri网知识库维护方法的实现。相似文献

12.

现代汉语语义资源用于短语歧义模式消歧研究

王锦陈群秀《中文信息学报》2007,21(5):80-86

现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。相似文献

13.

知识库实体对齐技术综述

庄严李国良冯建华《计算机研究与发展》2016,53(1):165-192

知识库的实体对齐(entity alignment)工作是近年来的研究热点问题.知识库实体对齐的目标是能够高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库,从而帮助机器理解底层数据.然而,知识库实体对齐在数据质量、匹配效率等多个方面存在很多问题与挑战有待解决.从这些挑战出发,对十几年来的可用于知识库实体对齐的技术和算法进行综述,通过分类和总结现有技术,为进一步的研究工作提供可选方案.首先形式化定义了知识库实体对齐问题;然后对知识库的实体对齐工作进行总体概述,并从对齐算法、特征匹配技术和分区索引技术3个方面详细总结了各种可用方法和研究进展,重点从局部和全局2个角度对主流的集体对齐算法进行详细阐述,并介绍了常用的评测数据集;最后对未来重点的研究内容和发展方向进行了探讨和展望. 相似文献

14.

词义标注语料库建设综述 总被引：3，自引：2，他引：1

金澎吴云芳俞士汶《中文信息学报》2008,22(3):16-23

词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。相似文献

15.

多民族语言本体知识库构建技术 总被引：2，自引：0，他引：2

赵小兵邱莉榕赵铁军《中文信息学报》2011,25(4):71-75

语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。相似文献

16.

中文症状知识库的建立与分析

昝红英韩杨超范亚鑫牛承志张坤丽穗志方《中文信息学报》2020,34(4):30-37

构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。相似文献

17.

中文药品知识库的研究与构建

张坤丽任晓辉庄雷昝红英张维聪穗志方《中文信息学报》2022,36(10):45-53

分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base, CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14 141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。相似文献