首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
This paper reports our investigation of machine learning methods applied to anaphora resolution for biology texts, particularly paper abstracts. Our primary concern is the investigation of features and their combinations for effective anaphora resolution. In this paper, we focus on the resolution of demonstrative phrases and definite determiner phrases, the two most prevalent forms of anaphoric expressions that we find in biology research articles. Different resolution models are developed for demonstrative and definite determiner phrases. Our work shows that models may be optimized differently for each of the phrase types. Also, because a significant number of definite determiner phrases are not anaphoric, we induce a model to detect anaphoricity, i.e., a model that classifies phrases as either anaphoric or nonanaphoric. We propose several novel features that we call highlighting features , and consider their utility particularly for processing paper abstracts. The system using the highlighting features achieved accuracies of 78% and 71% for demonstrative phrases and definite determiner phrases, respectively. The use of the highlighting features reduced the error rate by about 10%.  相似文献   

2.
自然语言句法分析的有界深度控制和早期剪枝   总被引:2,自引:0,他引:2  
万建成 《软件学报》1995,6(6):358-365
由于词汇量大、句法结构复杂,很难或无法采用列表、LL、LR等建立扫描表方法,提高自然语言句法分析的效率.在传统的自顶向下规则扫描和ATN网络分析算法基础上,本文提出了有界深度控制早期剪枝的分析技术.该技术可有效地限制分析的搜索范围,减少回溯,提高句法分析效率.  相似文献   

3.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

4.
基于自动抽取词汇信息的双语句子对齐   总被引:9,自引:0,他引:9  
刘昕  周明  朱胜火  黄昌宁 《计算机学报》1998,21(Z1):151-158
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度.  相似文献   

5.
对非专业键盘操作人员来说,汉字的输入仍然是起制约作用的瓶颈问题.为了解决这一困难,我们提出一种高度灵活自治的中文信息输入方式——面向个人的词码输入方式.文中还详细介绍了一个支持这种方式的中西文屏幕编辑软件PLED(Personal Lexical Editor).  相似文献   

6.
We present a directed Markov random field (MRF) model that combines n‐gram models, probabilistic context‐free grammars (PCFGs), and probabilistic latent semantic analysis (PLSA) for the purpose of statistical language modeling. Even though the composite directed MRF model potentially has an exponential number of loops and becomes a context‐sensitive grammar, we are nevertheless able to estimate its parameters in cubic time using an efficient modified Expectation‐Maximization (EM) method, the generalized inside–outside algorithm, which extends the inside–outside algorithm to incorporate the effects of the n‐gram and PLSA language models. We generalize various smoothing techniques to alleviate the sparseness of n‐gram counts in cases where there are hidden variables. We also derive an analogous algorithm to find the most likely parse of a sentence and to calculate the probability of initial subsequence of a sentence, all generated by the composite language model. Our experimental results on the Wall Street Journal corpus show that we obtain significant reductions in perplexity compared to the state‐of‐the‐art baseline trigram model with Good–Turing and Kneser–Ney smoothing techniques.  相似文献   

7.
关于Ada95变体部分等语法的修正意见   总被引:1,自引:0,他引:1  
本文指出了Ada95 参考手册中记录变体部分、记录聚集、分情形语句与异常处理段等语法描述中存在的问题,并分别给出了它们的修正方案。  相似文献   

8.
《机器人》杂志论文及作者的统计分析研究   总被引:1,自引:0,他引:1  
张律和  林虹  宋东辉 《机器人》2000,22(4):329-336
本文通过对我国核心科技期刊《机器人》杂志1990 ~1999年10年间发表的论文及作者的统计分析,展示了我国在机器人学方面理论和应用研究 的发展水平,揭示了从事机器人及相关技术理论与应用研究人员的现状和地区,系统分布的 特点与规律,并以文献计量学的方法确定本刊的核心作者,活跃作者群的数量及比例.对作 者的年龄和性别结构、篇均作者数、作者增变量、滞稿期和论文基金项目等的统计结果进行 综合分析,并提出几点看法.  相似文献   

9.
词法分析器是编译器的第一个组成部分,是后续部分的基础,同时,词法分析也广泛应用在很多软件中,所以理解词法分析器的构造原理比较重要。设计并实现的模拟器能够以表格和图形的方式展示词法分析器的构造过程,并可以形象模拟词法分析器从源程序中识别单词的过程。  相似文献   

10.
胡涛  王永刚  薛延学 《计算机应用》2001,21(12):15-16,19
为了在物理网络上建立两台主机的通信,必须要进行地址解析。文中介绍了地址解析技术的机制及实现方法,并比较了因特网上常用的三种地址解析算法的优缺点,给出了相应的应用范围。  相似文献   

11.
This article presents our work on the effective implementation of abduction in temporal reasoning. This works builds on some results, both in the logic programming field and in the automated reasoning area. We have defined and implemented an abductive procedure, which is well adapted for temporal reasoning because it is based on a constrained resolution principle. Constrained resolution has two advantages for temporal reasoning: First, it allows us to deal efficiently with temporal ordering and equality predicates, which are otherwise too much trouble with classical resolution; second, it allows a restricted form of abduction where hypotheses are limited to ordering relationships. From the logic programming area, our work uses results and procedures developed by others in the abductive logic programming field. The procedure we define and implement in this work is relatively independent of the temporal formalism: It has been used with some reified temporal logics and with the event calculus. More generally it can be used on any point-based temporal formalism, provided that a correct and complete algorithm is available for checking the consistency of a set of temporal ordering relationships in this language.  相似文献   

12.
算子Rough逻辑及其归结原理   总被引:6,自引:2,他引:6  
刘清 《计算机学报》1998,21(5):476-480
本文基于Rough集理论定义了算子η及其合成运算,并用它作用于Rough逻辑公式,从而得到了带算子的Rough逻辑.讨论了这种逻辑公式的真值、语义模型、性质、归结原理及完备性定理和它的证明.  相似文献   

13.
Agent规范与编程语言SPLAW的语法和语义   总被引:2,自引:0,他引:2  
本文描述了Agent规范与编程语言SPLAW的语法,为SPLAW中的各种语言成分提供了操作语义,并基于标记转换系统给出Agent性质的证明规则。由于SPLAW的通信部分采用不依赖于具体应用的Agent交互语言KQML,使遵循同一标准的Agent之间能进行协作问题求解。SPLAW首次为Agent提供继承支持,使其可以实现具有面向对象特征的多线程系统。SPLAW屏了为语言引入内部模态词的缺陷,试图从外  相似文献   

14.
ACCENT产生的语法分析器一次只能发现源程序中的一个错误,很不利于实际应用.针对有明确语句结束标记的程序设计语言,提出了一种能查找多个语法错误的实现方法,并在ATLAS语法分析中得到了实际应用和验证,效果良好.  相似文献   

15.
通用结构化编辑器是编辑系统研究的一个重要分支。本文介绍了如何面向对象的方法来分析、设计和实现一个GSE的过程。本文提出的GSE融诺法制导的结构化编辑器和正文编辑器于一身,克服了一般的结构化编辑操作限制太多,而正文编辑又缺乏语法制导的弱点,真正达到了两者的和谐统一,而且用面向对象方法开发本系统,使其具有较强的可重用性和易维护性。  相似文献   

16.
方林  程景云 《软件学报》1995,6(10):637-641
树文法是一种高维文法,能够用来表达二维以上复杂对象的构造规则.在模式识别、图式语言等领域有着广泛的应用前景.本文在树文法有关概念基础上提出了标志树、连接标志、标志树文法等概念,构造了标志树的匹配和识别算法,并成功解决了标志树文法的语法分析器构造问题.  相似文献   

17.
句法错误是数学文本表达式输入技术中最基本的错误形式。提出一种基于模式识别的初等数学表达式的文本句法自动检测方法,它是通过检测表达式中相邻两基元的数学排列规则来检测表达式中的文本句法错误。相邻两基元是通过对表达式的一维扫描搜索来得到,相邻两基元的检测通过模板匹配的方法来实现。数学文本表达式采用计算机键盘输入,输入格式符合人的读写习惯和计算机处理的要求。实验结果表明,该检测方法简单,算法设计容易,仅用一次扫描即可完成对表达式的句法检测,且检测速度快,正确检测率为100%。  相似文献   

18.
邓安生  刘叙华 《软件学报》1996,7(Z1):205-209
本文将一阶逻辑中的锁归结方法和广义锁归结方法推广到布尔算子Fuzzy逻辑中,并且证明了布尔算子Fuazzy逻辑中的锁归结方法和一种特殊的广义锁归结方法是广义完备的.  相似文献   

19.
Web服务安全问题研究和解决   总被引:20,自引:0,他引:20  
Web服务目前正受到广泛的关注,而安全问题是推广Web服务的一大障碍。本文首先描述了Web服务的架构,接着描述了Web服务中存在的安全问题,并提出了解决方法。最后介绍了IBM和Microsoft联合开发的Web服务安全规范和一个提供基本认证功能的安全方案。  相似文献   

20.
试题导入是当前在线教育面临的一个难点问题。传统的在线试题导入效率较低而且出错率较高。目前一些基于词法、语法分析的试题导入研究侧重于纯文本试题的导入。通过对联通内训平台试题库的分析发现包含图片、视频的多媒体试题出现较为频繁。为了解决这一问题,提出一种基于词法分析和XML技术的多媒体试题批量导入方法。该方法首先对试卷进行预处理得到标准的试卷模型,然后通过试题解析得到HTML格式的试卷并根据HTML的标签信息分解出题目与答案,最后将"题目-答案"以XML格式存入数据库中并完成试题导入。该方法成功运用到联通内训平台,高效地解决了多媒体试题导入的问题。相比于现有的试题导入方法,该试题导入方法支持的试题类型更多,导入效率和准确率也有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号