首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 576 毫秒
1.
句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研究的问题。人工标注句法树库费时费力,树库质量也难以保证,为此,该文尝试通过规则的方法,将宾州中文树库(CTB)转换为句式结构树库,从而扩大现有句式结构树库的规模。实验结果表明,该文提出的基于树库转换规则的方法是有效的。  相似文献   

2.
周强 《中文信息学报》2016,30(3):196-203
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
  相似文献   

3.
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。  相似文献   

4.
为支持基于句式结构的大规模树库建设与研究,该文设计了人机结合的可视化语法图解标注系统,通过句式结构的框架约束和词汇知识库的底层支持有效规范了标注结果的结构层次和词性标记,在一定程度上保证了树库标注的一致性和高效率。该文从实践角度介绍了基于句式结构的语法图解标注系统在辅助构建大规模汉语树库中的操作模式和功能。  相似文献   

5.
为提升依存分析并分析影响其精度的相关因素,该文构建了大规模中文通用依存树库和中等规模领域依存树库。基于这一系列树库,通过句法分析实验考察质量、规模、领域差异等因素对中文依存分析的影响,实验结果表明: (1)树库规模和质量均与句法分析精度成正相关关系,质量应先于规模因素被优先考虑;(2)通用树库和领域树库之间的差异程度与前者对后者的替代性成相关关系;(3)两种树库混合使用的效果同样与领域差异有关。
  相似文献   

6.
为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。  相似文献   

7.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展...  相似文献   

8.
针对中文组合范畴语法(CCG)分析困难的特点,研究如何将两种彼此相互独立的技术共同应用在中文CCG句法分析上。首先使用预标注算法,使用对数线性模型通过去除那些概率较低的词汇范畴来对句子的潜在分析空间进行剪枝。然后应用启发式搜索算法进一步加速分析过程。最后从时间效率和分析精度两个维度对所使用的方法进行验证。实验表明,基于启发式搜索与预标注的句法分析算法可以显著地提高分析效率与分析精度。  相似文献   

9.
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来消解,仅仅依靠词语的语法特征(如词类信息)是无法解决的。  相似文献   

10.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。  相似文献   

11.
In this paper, we present an approach for automatically creating a combinatory categorial grammar (CCG) treebank from a dependency treebank for the subject–object–verb language Hindi. Rather than a direct conversion from dependency trees to CCG trees, we propose a two stage approach: a language independent generic algorithm first extracts a CCG lexicon from the dependency treebank. An exhaustive CCG parser then creates a treebank of CCG derivations. We also discuss special cases of this generic algorithm to handle linguistic phenomena specific to Hindi. In doing so we extract different constructions with long-range dependencies like coordinate constructions and non-projective dependencies resulting from constructions like relative clauses, noun elaboration and verbal modifiers.  相似文献   

12.
The Computational Chemistry Grid (CCG) is a three-year, National Middleware Initiative program to develop cyberinfrastructure for the chemistry community. CCG is led by the University of Kentucky and involves collaborating sites at Louisiana State University, Ohio Supercomputing Center, Texas Advanced Computing Center, and the National Center for Supercomputing Applications. This paper discusses experiences developing the CCG cyberinfrastructure in the first year of the project. Special attention is paid to technological issues faced as well as issues raised running the CCG in production. The final section of the paper looks forward to challenges foreseen in the remaining two years.September 1, 2005.  相似文献   

13.
针对重叠联盟的合作博弈框架(OCF games)中重叠联盟结构生成(OCSG)求解困难的问题,提出了一种基于贪心方法的有效算法。首先使用了一种带有联盟数量k约束的OCF博弈(kOCF games)模型来限制OCSG问题的规模;然后引入了一种相似度量来表示任意两个联盟结构之间的相似程度,并基于相似度量定义了单调性的性质,这意味着某一联盟结构与最优联盟结构的相似度越高,该联盟的单调性的值就越大;最后对于具有单调性质的kOCF博弈,采用了逐一插入玩家编号以逼近最优联盟结构的方法设计了联盟约束贪心(CCG)算法来求解给定的OCSG问题,并在理论上证明了CCG算法的复杂度是On2k+1)。通过实验分析和验证了不同参数和联盟值分布对所提算法性能的影响,并把该算法与Zick等提出的算法(ZICK Y,CHALKIADAKIS G,ELKIND E,et al. Cooperative games with overlapping coalitions: charting the tractability frontier. Artificial Intelligence,2019,271:74-97)在约束条件等方面进行了对比,得出了当联盟最大数量k被常数约束时所提算法的搜索次数随agent的个数基本呈线性增长的结果。可见CCG算法是固定参数k可解的,而且拥有更好的适用性。  相似文献   

14.
A more natural way for non-expert users to express their tasks in an open-ended set is to use natural language. In this case, a human-centered intelligent agent/robot is required to be able to understand and generate plans for these naturally expressed tasks. For this purpose, it is a good way to enhance intelligent robot's abilities by utilizing open knowledge extracted from the web, instead of hand-coded knowledge. A key challenge of utilizing open knowledge lies in the semantic interpretation of the open knowledge organized in multiple modes, which can be unstructured or semi-structured, before one can use it. Previous approaches used a limited lexicon to employ combinatory categorial grammar (CCG) as the underlying formalism for semantic parsing over sentences. Here, we propose a more effective learning method to interpret semi-structured user instructions. Moreover, we present a new heuristic method to recover missing semantic information from the context of an instruction. Experiments showed that the proposed approach renders significant performance improvement compared to the baseline methods and the recovering method is promising.   相似文献   

15.
Supervisor Synthesis for Real-Time Discrete Event Systems   总被引:1,自引:1,他引:1  
This paper introduces a formal framework to logically analyze and control real-time discrete event systems (RTDESs). Time Petri nets are extended to controlled time Petri nets (CtlTPNs) to model the dynamics of RTDESs that can be controlled by real-time supervisors. The logical behaviors of CtlTPNs are represented by control class graphs (CCGs) which are untimed automata with timing and control information in their state transition labels. We prove that the CCG corresponding to a CtlTPN expresses completely the logical behavior of the CtlTPN. The real-time supervisor is based on a nondeterministic logical supervisor for the CCG, including the delay for control computations to ensure the supervisor is acceptable in a true real-time environment. We prove the existence of a unique maximal controllable sublanguage of a given specification language and present an algorithm to construct the sublanguage. We also prove that the real-time supervisor meets the prespecified real-time behavior and present an online control algorithm to implement real-time supervisors. The concepts and algorithms are illustrated for an example of packet reception processes in a communication network.  相似文献   

16.
基于图论的路网交通检测器之布点   总被引:1,自引:0,他引:1  
为获取各路段的交通流量,将路网检测器布点问题转变成寻求有向图的流控制子图的问题.首先将任意路网抽象为有向图,定义弧的度表征路段的重要性,证明完全有向回路图(CCG)的若干结论后给出CCG最小流控制子图的获取算法,同时给出有向图非回路部分的流控制子图获取方法,进而提出能在任意路网上进行检测器优化布点的完整算法.算例选取广州火车东站附近的路网,结果验证了所提出的方法的有效性.  相似文献   

17.
基于动态规划算法的专有名词切分   总被引:1,自引:1,他引:0  
提出了一种对专有名词字串进行自动切分的方法,该方法对大量通用形式的专有名词进行统计分析,根据专有名词用字的出现位置和出现次数来分析,并把出现概率转换为估价值。则根据中文专有名词的特点,将中文专有名词的切分问题转换为决策树求最优解问题。采用动态规划法选取最优路径,从而确保结果的整体估价值最优。以中文姓名为例,实验表明该方法具有很快的速度和很高的正确率,用10个名字的字符串进行测试正确率为99.66%以上。  相似文献   

18.
计算机写诗是实现计算机写作的第一步,目前计算机写诗普遍存在主题不明确、诗的内容与写作意图不一致的问题。为改善这些问题,效仿古人写诗的过程,提出了一种两个阶段生成古诗的方法。第一阶段获取写诗大纲,采用TextRank算法对用户输入文本提取关键词,并提出一种基于注意力机制的序列到序列神经网络模型用于关键词扩展;第二阶段根据写诗大纲生成每一行诗句,并提出一种包含双编码器和注意力机制的序列到序列神经网络模型用于古诗生成。最后通过对实验结果的评估验证了提出方法的有效性。与基准方法相比,该方法生成的古诗的主题意义更加明确,诗所表现的内容和写作意图更加一致。  相似文献   

19.
Automatic Chinese text classification is an important and a well-known technology in the field of machine learning. The first step for solving Chinese text categorization problems is to tokenize the Chinese words from a sequence of non-segmented sentences. However, previous literatures often employ a Chinese word tokenizer that was trained with different sources and then perform the conventional text classification approaches. However, these taggers are not perfect and often provide incorrect word boundary information. In this paper, we propose an N-gram-based language model which takes word relations into account for Chinese text categorization without Chinese word tokenizer. To prevent from out-of-vocabulary, we also propose a novel smoothing approach based on logistic regression to improve accuracy. The experimental result shows that our approach outperforms traditional methods at least 11% on micro-average F-measure.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号