首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
句法结构歧义是句法分析过程中最主要也是最难解决的问题之一.使用了一种组合型的概率评价函数解决英语句法分析过程中所面临的结构歧义问题,综合考虑了句法分析时的结构特性和上下文信息.并使用基于规则的句法分析后校正机制对错误的分析结果进行进一步的校正.组合型的概率评价函数为更精细的句法分析提供了一个可以扩充的统计模型,这种方法也可以适用于其它语言的句法分析.实验结果表明,这种方法具有较高的精确率和召回率。  相似文献   

2.
以词汇主义形式语法为基础,建立了链接文法与合一理论相结合的句法分析新方法.在封闭测试中,基于合一的链接文法句法分析精确率和召回率相比传统链接文法分别提高了9.6%和14.1%.实验表明方法具有一定独创性和高效性.  相似文献   

3.
一种现代汉语句法分析方法的建立与实现   总被引:1,自引:0,他引:1  
本文以7万小学生语文课本分词语料为基础,建立一个隐马尔可夫模型与层次分析法相结合的完全句法分析方法,实现了现代汉语完全句法分析。实验结果表明,该方法具有一定的独创性和高效性,其完全句法分析正确率在封闭和开放测试中分别为92.43%和65.374%。  相似文献   

4.
软件需求跟踪已被公认为影响软件项目成败的一个关键因素。针对大多数基于信息检索的需求跟踪方法都严重依赖于软件制品中的文本质量,提出了一种基于句法分析的动态需求跟踪方法。该方法能够从制品中抽取最有可能刻画自身特征的标引词,并减少制品中噪音对需求跟踪带来的不利影响。为了验证该方法的有效性,在多个来自不同项目且类型不同的软件制品上,比较了基于不同标引词集合的动态需求跟踪方法所建立的跟踪关系。实验结果表明,基于句法分析的动态需求跟踪方法能够有效地提高跟踪关系的准确性。  相似文献   

5.
面向特定领域的汉语句法主干分析   总被引:3,自引:3,他引:3  
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节,形成用模板表示的句法主干。在浅层句法分析中,本文使用了级联的隐马尔可夫模型进行了短语的归并;而后以已有的汉语句子模板为基础,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中,模板匹配的精确率和召回率分别达到了98.04%和81.43% ,句子级的精确率和召回率分别达到了96.97%、84.85% ,实验表明该方法在特定领域是有效的。  相似文献   

6.
为了提高信息检索系统的检索性能,同时方便用户的操作,本文提出一种新的方法将用户输入的朝鲜自然语句自动转换成扩展的布尔查询词.首先基于句法信息将用户输入的朝鲜自然语句生成布尔查询词,然后对查询词进行句法分析,利用句法树组合或分离结构上相互联系的复合名词,并以扩展多样标记和简略标记用语扩展检索.同普通的检索方法和手动提取布尔查询词检索方法相比,本文提出的方法在准确率上分别高出8%和12%.  相似文献   

7.
通过分析复合型数字图书馆系统信息检索的特性,以及对基于移动主体分布式信息检索技术与Z39.50标准协议的研究,并利用基于移动主体分布式信息检索的灵活性和高效性与Z39.50协议强壮的广播检索能力,设计实现了应用于复合型数字图书馆系统的基于移动主体的分布式检索子系统Web-OPAC,并在ADLibSys项目中得以应用,使跨库检索的准确率和速度得到很大的提高。  相似文献   

8.
信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6% 和55.8%。  相似文献   

9.
在传统的基于树的翻译模型中,一般都是将一条规则视为字符串,然后使用字符串匹配技术从规则表中搜索可用的规则.然而,由于基于树的翻译模型依赖于句法分析的结果,而有些语言的句法分析准确率并不是很高,所以由句法分析错误造成的规则无法匹配的现象很常见,特别是在树到树的翻译模型中,能够精确匹配的规则数量非常稀少,进而对机器翻译的性...  相似文献   

10.
许通  杨寿保  胡云 《计算机工程》2009,35(1):101-104
跳数对无线网络传输性能的影响以及P2P网络相邻节点物理位置的不相邻导致P2P网络信息检索延迟过大。该文提出基于无线网状网物理特性的超级节点选举机制。根据节点在网状网中的作用和位置特性确立Mesh子域,构建超级节点服务簇,使簇内节点的实际通信跳数较小,控制应用的端到端传输延时。仿真结果表明,该机制能降低约50%的信息检索延迟。  相似文献   

11.
周南  田学东 《计算机应用》2016,36(3):833-836
针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。  相似文献   

12.
一种结合超链接分析的搜索引擎排序方法   总被引:5,自引:0,他引:5  
吴明礼  施水才 《计算机工程》2004,30(15):143-145
为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链接分析通过互联网的链接结构计算出每个网络文档的质量;通过中文分词和索引链接文本可以更加准确地获得一个网络文档的信息内涵。将3者结合可以充分利用各自优势而弥补不足。  相似文献   

13.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。  相似文献   

14.
目的 服装检索对于在线服装的推广和销售有着重要的作用。而目前的服装检索算法无法准确地检索出非文本描述的服装。特别是对于跨场景的多标签服装图片,服装检索算法的准确率还有待提升。本文针对跨场景多标签服装图片的差异性较大以及卷积神经网络输出特征维度过高的问题,提出了深度多标签解析和哈希的服装检索算法。方法 该方法首先在FCN(fully convolutional network)的基础上加入条件随机场,对FCN的结果进行后处理,搭建了FCN粗分割加CRFs(conditional random fields)精分割的端到端的网络结构,实现了像素级别的语义识别。其次,针对跨场景服装检索的特点,我们调整了CCP(Clothing Co-Parsing)数据集,并构建了Consumer-to-Shop数据集。针对检索过程中容易出现的语义漂移现象,使用多任务学习网络分别训练了衣物分类模型和衣物相似度模型。结果 我们首先在Consumer-to-Shop数据集上进行了服装解析的对比实验,实验结果表明在添加了CRFs作为后处理之后,服装解析的效果有了明显提升。然后与3种主流检索算法进行了对比,结果显示,本文方法在使用哈希特征的条件下,也可以取得较好的检索效果。在top-5正确率上比WTBI(where to buy it)高出1.31%,比DARN(dual attribute-aware ranking network)高出0.21%。结论 针对服装检索的跨场景效果差、检索效率低的问题,本文提出了一种基于像素级别语义分割和哈希编码的快速多目标服装检索方法。与其他检索方法相比,本文在多目标、多标签服装检索场景有一定的优势,并且在保持了一定检索效果的前提下,有效地降低了存储空间,提高了检索效率。  相似文献   

15.
短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽取技术从中英平行专利语料中抽取短语复述,并利用基于组块分析的技术过滤短语复述抽取结果。而且,为了处理对齐错误和翻译歧义引起的短语复述抽取错误,我们利用分布相似度对短语复述抽取结果进行重排序。实验表明,基于统计机器翻译的短语复述抽取在中英文上准确率分别为43.20%和43.60%,而经过基于组块分析的过滤技术后准确率分别提升至75.50%和52.40%。同时,利用分布相似度的重排序算法也能够有效改进抽取效果。  相似文献   

16.
稀疏数据严重影响句子结构分析模型的结果, 而句法结构是语义内容和句法分析形式的结合。本文在语义结构信息标注的基础上提出了一种基于语义搭配关系的词聚类模型和算法,建立基于语义类的头驱动句子结构分析统计模型。该语言模型不但比较成功地解决了数据稀疏问题, 而且句子结构分析系统性能也有了明显的提高。句子结构分析实验结果表明,基于语义类的头驱动的句子结构分析统计模型,其召回率和精确率的值相应为88.26%和88.73%,综合指标改进了8.39%。  相似文献   

17.
Answering complex questions involving multiple relations over knowledge bases is a challenging task. Many previous works rely on dependency parsing. However, errors in dependency parsing would influence their performance, in particular for long complex questions. In this paper, we propose a novel skeleton grammar to represent the high-level structure of a complex question. This lightweight formalism and its BERT-based parsing algorithm help to improve the downstream dependency parsing. To show the effectiveness of skeleton, we develop two question answering approaches: skeleton-based semantic parsing (called SSP) and skeleton-based information retrieval (called SIR). In SSP, skeleton helps to improve structured query generation. In SIR, skeleton helps to improve path ranking. Experimental results show that, thanks to skeletons, our approaches achieve state-of-the-art results on three datasets: LC-QuAD 1.0, GraphQuestions, and ComplexWebQuestions 1.1.  相似文献   

18.
钟雅  郭渊博 《计算机应用》2018,38(2):352-356
针对现有日志分类方法只适用于格式化的日志,且性能依赖于日志结构的问题,基于机器学习方法对日志信息解析算法LogSig进行了扩展改进,并设计开发了一个集数据处理与结果分析于一体的日志解析系统,包括原始数据预处理、日志解析、聚类分析评价、聚类结果散点图显示等功能,在VAST 2011挑战赛的开源防火墙日志数据集上进行了测试。实验结果表明,改进后的算法在归类整理日志事件时的平均准确性达到85%以上;与原LogSig算法相比,日志解析精度提高了50%,同时解析时间仅为原先的25%,可用于大数据环境下高效准确地对多源非结构化日志数据进行解析。  相似文献   

19.
基于期待类型的Chart句法分析算法   总被引:1,自引:0,他引:1  
王牋  李中志 《计算机应用》2009,29(5):1251-1253
Chart算法是目前句法分析中应用最广泛的算法之一,但该算法的计算效率仍有待提高。通过对两种常用Chart算法的分析,提出一种以由底向上的Chart算法为基础,结合自顶向下Chart算法的预测能力的算法。算法按严格从左到右、由底向上的方向进行,根据已有活动边的活动角色类型和句法规则,产生当前词位置上的期待类型表,并以此限制后续边的生成。对比实验的结果表明,分析速度较普通Chart算法提高了约24%,同时也减少了一半以上因边池溢出而导致的分析失败的语句。  相似文献   

20.
词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号