首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
实现一个基于机器学习的中文缺省项识别系统,对语料库进行预处理,选取多个特征及其组合,通过支持向量模型(SVM)构建的缺省识别模型进行中文缺省识别。研究系统在不同句法分析树上的性能。实验结果证明,该识别系统在标准的句法分析树上F值能达到84.01%,在自动句法树上能达到68.22%。  相似文献   

2.
中文零指代消解问题包括零指代项的识别和零指代项的消解2个相互关联的子任务. 传统的方法在解决该问题时,往往不考虑2个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束. 基于马尔可夫逻辑网络模型可以将零指代项的识别和零指代项的消解2个子任务融合在统一的机器学习框架下进行联合推断与联合学习,采用局部规则分别针对零指代项的识别和消解进行预测,采用全局规则描述这2个子任务间的关联关系. 基于OntoNotes3.0的中文数据集上的实验结果显示,基于马尔可夫逻辑网络的联合学习模型相比于独立学习模型以及多个baseline方法能够获得更好的实验效果.  相似文献   

3.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

4.
介绍了一种基于树核函数的零指代项识别方法,并给出了具体的实现系统。为了能够裁剪出包含零指代项的句法结构树,首先对CTB的语料进行了相关的人工标注,构建了一个基准语料库;然后,提出了3种不同的裁剪策略,获得了零指代项的结构化信息,生成了零指代项分类器;最后,构建了一个基于规则的原型系统,作为研究内容的实验对象。实验结果显示,提出的基于树核函数的零指代项识别方法获得的识别率明显优于基于规则的原型系统。  相似文献   

5.
混合的汉语基本名词短语识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用BaseNP词的信息、词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。在中文树库(CTB5.0)上进行实验,F值达到了90.09%,证明该方法能有效地识别BaseNP。  相似文献   

6.
《计算机工程》2017,(4):222-227
现有的评价对象抽取方法多基于启发式规则或者基于词性、词形等特征的机器学习方法,未能较好地利用依存分析所揭示出的深层句法关联关系。为此,基于从依存关系树库所挖掘的频繁树模式,提出一种针对中文评论性短文本的评价对象抽取方法。该方法基于依存关系频繁子树模式进行短文本的初始标注,采用错误驱动框架的方法提炼出能反映评价对象特征的频繁子树模式有序模式规则集,并利用该规则集进行评价对象的抽取。实验结果表明,该方法具有较好的稳定性与准确性,在召回率和F1值等评价指标上优于基于支持向量机的方法。  相似文献   

7.
传统的语义角色标注只能为句中显式表达的句法论元分配语义角色,但是忽略了一些隐式的语义成分,即零形式。该文基于汉语框架语义研究了零形式的识别及消解。在识别阶段,首先使用规则方法进行零形式检测,然后运用筛选过滤的策略去除部分错误识别的零形式;在消解阶段,将篇章中显式表达的框架元素填充项作为零形式的候选先行语,提出结合框架元素语义类型与框架关系的消解方法。在构建的164篇中文语料上进行实验,与其他方法相比,该方法能获得更好的结果。
  相似文献   

8.
王志国  宗成庆 《软件学报》2012,23(10):2628-2642
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升.  相似文献   

9.
石翠 《软件》2014,(2):75-78
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

10.
石翠 《软件》2014,(3):68-71
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

11.
This paper explores a tree kernel based method for semantic role labeling (SRL) of Chinese nominal predicates via a convolution tree kernel. In particular, a new parse tree representation structure, called dependency-driven constituent parse tree (D-CPT), is proposed to combine the advantages of both constituent and dependence parse trees. This is achieved by directly representing various kinds of dependency relations in a CPT-style structure, which employs dependency relation types instead of phrase labels in CPT (Constituent Parse Tree). In this way, D-CPT not only keeps the dependency relationship information in the dependency parse tree (DPT) structure but also retains the basic hierarchical structure of CPT style. Moreover, several schemes are designed to extract various kinds of necessary information, such as the shortest path between the nominal predicate and the argument candidate, the support verb of the nominal predicate and the head argument modified by the argument candidate, from D-CPT. This largely reduces the noisy information inherent in D-CPT. Finally, a convolution tree kernel is employed to compute the similarity between two parse trees. Besides, we also implement a feature-based method based on D-CPT. Evaluation on Chinese NomBank corpus shows that our tree kernel based method on D-CPT performs significantly better than other tree kernel-based ones and achieves comparable performance with the state-of-the-art feature-based ones. This indicates the effectiveness of the novel D-CPT structure in representing various kinds of dependency relations in a CPT-style structure and our tree kernel based method in exploring the novel D-CPT structure. This also illustrates that the kernel-based methods are competitive and they are complementary with the feature- based methods on SRL.  相似文献   

12.
Program plagiarism detection is a task of detecting plagiarized code pairs among a set of source codes. In this paper, we propose a code plagiarism detection system that uses a parse tree kernel. Our parse tree kernel calculates a similarity value between two source codes in terms of their parse tree similarity. Since parse trees contain the essential syntactic structure of source codes, the system effectively handles structural information. The contributions of this paper are two-fold. First, we propose a parse tree kernel that is optimized for program source code. The evaluation shows that our system based on this kernel outperforms well-known baseline systems. Second, we collected a large number of real-world Java source codes from a university programming class. This test set was manually analyzed and tagged by two independent human annotators to mark plagiarized codes. It can be used to evaluate the performance of various detection systems in real-world environments. The experiments with the test set show that the performance of our plagiarism detection system reaches to 93% level of human annotators.  相似文献   

13.
This paper proposes a tree kernel method of semantic relation detection and classification(RDC) between named entities.It resolves two critical problems in previous tree kernel methods of RDC.First,a new tree kernel is presented to better capture the inherent structural information in a parse tree by enabling the standard convolution tree kernel with context-sensitiveness and approximate matching of sub-trees.Second,an enriched parse tree structure is proposed to well derive necessary structural informat...  相似文献   

14.
孔芳  葛海柱  周国栋 《软件学报》2021,32(12):3782-3801
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和OntoNotes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑.  相似文献   

15.
出生缺陷是目前世界各国关注的公共卫生问题,采用数据挖掘技术提高出生缺陷的诊断水平是当前数字医学的热点研究方向。为此,提出了适合出生缺陷特征提取的两种显露模式:有缺陷相比于无缺陷的显露模式和无缺陷相比于有缺陷的显露模式。将新模式与决策树C4.5算法结合,实现了基于显露模式的出生缺陷判别(BDD-EP)算法。实验结果表明BDD-EP算法判别准确率高达90.1%,判别正常类的F度量值为93.9%,判别缺陷类的F度量值为74.1%,均高于其他几种著名的分类算法的判别效果。  相似文献   

16.
在管理信息系统的层次分类树中,为了快速查询分类信息并高效地生成层次分类子树,提出了一种基于前缀编码的先根遍历树生成算法。该算法中的节点采用前缀编码的数据结构,便于快速检索出子树节点集合;在构造子树时预先对其进行先根遍历,产生有序遍历表,同时记录最近各层节点的信息,使得建立子树的效率得到大幅提高。最后通过实例验证了所提算法的有效性,为管理信息系统中层次分类树的建立提供了可行的解决途径。  相似文献   

17.
针对传统AVL(Adelson-Velskii and Landis)树重平衡算法代码量大、流程复杂、调整率过高的问题,提出一种统一重平衡算法,并提出广义AVL树的概念。统一重平衡算法能对AVL树的失衡节点进行自动分类、调整,取消了传统重平衡方法中的四种旋转操作。广义AVL树放松了AVL树的平衡约束,允许左右子树树高相差不超过N(N≥1),当更新操作(插入/删除)执行后,广义AVL树只在平衡约束条件不满足时采用统一重平衡算法进行调整。理论分析与实验结果表明,广义AVL树的调整率随着N的增大而显著降低:N为5时,调整率低于4%;N为13时调整率低于千分之一。广义AVL树的调整率远低于红黑树等经典数据结构,适合并发应用。  相似文献   

18.
基于依存句法分析的中文语义角色标注   总被引:3,自引:0,他引:3  
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种不同的语料,一种是由标准短语结构句法分析(CTB5.0)转换而来,另一种是CoNLL2009公布的中文语料。系统分别在两种语料的标准谓词和自动谓词的基础上进行实验,在标准谓词上取得的F1值分别为84.30%和81.68%,在自动谓词上的F1值为81.02%和81.33%。  相似文献   

19.
为了解决流程工业中定额工时准确度低的问题,提出了基于决策树和模型树的作业工时预估方法。对混合类型属性的训练集,首先用标称属性完成部分树的构建,接着在各分枝上采用模型树算法完成子树的构建,在叶节点处给出线性模型。此外,提出方法可基于数据集给出较优训练参数。以某炼油企业的实际生产数据对该方法进行验证,结果证明提出方法能更准确地预估实际任务量,显著缩小计划与执行之间的偏差,提高计划的可执行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号