排序方式: 共有25条查询结果,搜索用时 0 毫秒
1.
基于混合策略的高精度长术语自动抽取 总被引:1,自引:0,他引:1
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。 相似文献
2.
浅谈环境监测实验室的环境污染与防治 总被引:1,自引:0,他引:1
主要分析环境监测实验室产生的废水、废气、废渣等三废污染物,这些污染物的特点是污染种类全、污染数量少、污染危害大、污染治理少。,指出环境监测实验室是一类典型的小型污染源。并阐述环境监测实验室防治污染与控制途径。 相似文献
3.
4.
翻译模板自动获取是提高MT译文输出质量和领域适应能力的关键性因素。利用Tree-to-String方法抽取等价对,使用错误驱动的学习方法从中获取翻译模板并进行优化。将优化后的翻译模板用于一个基于转换的机器翻译系统中,同时使用“863”对话语料对其进行评测。实验结果表明:当使用自动获取并经优化的模板进行翻译时,开放测试语料的译文评测分数有一定程度的提高。 相似文献
5.
基于改进DE-Tri-Training算法的汉语多词表达抽取 总被引:1,自引:0,他引:1
梁颖红谭红叶鲜学丰黄丹丹钱海忠沈春泽 《数据采集与处理》2017,32(1):141-148
多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数据净化方法,提出了半指导策略抽取汉语多词表达,聚类算法的中后期也加入有指导的信息,使分类器能使用正确的标注信息进行训练。通过与DE-Tri-Training算法的对比实验,改进的DE-Tri-Training算法得到的汉语多词表达抽取结果优于原来的算法,验证了改进DE-Tri-Training算法的有效性。 相似文献
6.
提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介数计算量大的问题.最后结合加权点度中心度和基于边界节点的介数抽取出关键短语,表现出良好的抽取效果,对利用复杂网络抽取关键短语有很好的指导作用. 相似文献
7.
本文介绍了用Powerpoint97设计新产品介绍用多媒体演示系统的基本思想,方法和设计要点,实现过程。 相似文献
8.
在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了名词术语自动抽取的一个难点问题。针对该难点,提出综合C-value参数在长术语抽取方面的优势,并与术语抽取中的互信息参数相结合的策略来识别术语。实验结果表明,长术语抽取正确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法。 相似文献
9.
基于关联度评价的中心词扩展的英文文本语块识别 总被引:2,自引:0,他引:2
传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决.实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律.关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块.它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果.通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94.05%,与目前的最好结果相当. 相似文献
10.