首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

2.
针对水稻病虫害知识图谱构建所需实体和关系,提出了一种基于FastBert模型的中文实体关系抽取方法. 首先,在中文语料收集的基础上,使用Hanlp工具和农业词典提取了与水稻病虫害相关的领域实体,并依据实体间关系的特点定义了病虫害别名、为害部位、为害地区、防治方法等7种类型. 然后,在词嵌入和句子嵌入的基础上通过FastBert模型实现水稻病虫害关系的抽取. 该模型与Robert、Electra、Distilbert等其它Bert相关模型的关系抽取结果比较显示,基于FastBert模型的中文水稻病虫害关系抽取效果更好,模型获得的实体间关系F1值达0.72,模型精度达0.69. 该方法为中文农业病虫害知识图谱的自动化构建提供了参考.  相似文献   

3.
基于汉英双语语料库的翻译等价单位自动获取研究   总被引:6,自引:0,他引:6  
双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英双语语料库中抽取翻译等价单位。本文还对不同的关联度量方法进行了对比,并提出利用范畴假设改进抽取算法的效率。  相似文献   

4.
在命名实体识别的研究基础之上,论文把抽取人名实体与机构实体间的任职关系看成分类问题.即根据现代汉语句子中任职动词的类别属性将任职关系信息抽取模式分类.应用决策树的方法确定句子的抽取模式,实现人在机构中的任职关系信息抽取.并对建立的基于该决策树的任职关系抽取系统进行开放测试,平均召回率和精确率分别为91.47%和89.15%,实验结果表明,基于决策树的现代汉语中任职关系抽取是一种值得继续探讨的方法.  相似文献   

5.
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。  相似文献   

6.
提出基于弱监督学习的属性抽取方法, 利用知识库中已有结构化的属性信息自动获取训练语料, 有效解决了训练语料不足问题. 针对训练语料存在的噪声问题, 提出基于关键词过滤的训练语料优化方法. 提出n元模式特征提取方法, 该特征能够缓解传统n-gram特征稀疏性问题. 实验数据源来自互动百科, 从互动百科信息盒中抽取结构化属性信息构建知识库, 从百科条目文本中自动获取训练数据和测试数据. 实验结果表明, 关键词过滤能有效提高训练语料的质量, 与传统n-gram特征相比, n元模式特征能够提高属性抽取的性能.  相似文献   

7.
RFID系统中防碰撞算法的改进   总被引:1,自引:0,他引:1  
在查询树(QT)算法和二叉树堆栈(ID-BTS)算法基础上,提出一种改进算法,应用于读写器要对其查询范围内的标签进行反复识别的情况.该算法中,读写器引入一个堆栈S来记录二叉树发生碰撞时的右子树节点信息,一个队列Q来记录没有碰撞发生时的查询命令.当读写器完成第一轮识别后,需要对其查询范围内的标签进行再次识别时,直接从队列Q中弹出查询前缀即可.读写器每发送一个查询前缀,将识别出一个标签.Matlab仿真实验表明,在总搜索次数和系统通信量方面,该算法可以更高效地识别标签.  相似文献   

8.
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.  相似文献   

9.
An efficient Quasi-orthogonal time division multiplexing (QOTDM) transmission is proposed for the satellite mobile channels. High order modulation is used in this method to resist the nonlinear mobile satellite channel. The spectral gap of sample points is eliminated by multiple rate conversion at the transmitter in order to improve the spectral efficiency. At the receiver, cyclic is constructed by channel information and local PN sequence, and a frequency domain equalization algorithm based on the block is presented. Theoretical analysis shows that this frequency domain equalization method can use the energy of the multipath to suppress the noise and the interference between the forward and backward sample points can be eliminated in the meantime. Compared with the traditional frequency domain equalization based on the cyclic prefix, the spectral utilization and data transmission efficiency are improved. It is shown by the Monte Carlo simulation that the signal-to-noise ratio of 5dB or so for the SER of 10-3 can be achieved by the scheme proposed compared with the OFDM in the time-varying Rician channels.  相似文献   

10.
专业领域词汇相似度计算是词汇语义相似度计算中的重要问题.通过分析专业领域词汇的构词特点,并结合领域本体概念模型,提出一种专业领域词汇相似度计算算法(domain ontology and morphology based algorithm,DOMBA).该算法将专业领域词汇构词法与领域本体的概念相似度影响因子相结合,融于词汇相似度计算中.实验结果表明,词汇相似度计算结果符合客观实际的判断认识,DOMBA算法可有效应用于专业领域词汇相似度计算中.  相似文献   

11.
为了有效提高客服效率与主动服务意识,从电力短文本中挖掘客户的情感状态,提出了一种基于迁移学习的情感分析方法,将具有丰富标注信息的商品评论语料库作为源域,提高了目标域中的电力短文本的情感分类性能。在现有基于注意力机制的双向长短型记忆网络模型之上引入域适应层,以学习跨域知识并保留特定域的知识。实验结果表明,与其他算法相比较,该算法对电力短文本进行情感分类的效果优于非迁移学习方法,具有更好的分类性能。  相似文献   

12.
在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存人数据库.分句匹配算法是语言翻译处理领域的双语句子对齐过程,它将网页净化后获得的有用信息进行匹配,产生最终的双语语料.对分句匹配算法进行了描述,并且研究了匹配算法的实现过程.  相似文献   

13.
A fast method for phrase structure grammar analysis is proposed based on conditional random fields (CRF). The method trains several CRF classifiers for recognizing the phrase nodes at different levels, and uses the bottom-up to connect the recognized phrase nodes to construct the syntactic tree. On the basis of Beijing forest studio Chinese tagged corpus, two experiments are designed to select the training parameters and verify the validity of the method. The result shows that the method costs 78.98.ms and 4.63.ms to train and test a Chinese sentence of 17.9 words. The method is a new way to parse the phrase structure grammar for Chinese, and has good generalization ability and fast speed.  相似文献   

14.
基于多特征的自适应新词识别   总被引:4,自引:0,他引:4  
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.  相似文献   

15.
为了识别汉语实体,提出了利用模式匹配技术构造一个抽取模型。为了识别该模型的有效性,系统的测试语料采用Internet网上真实语料,语料全部来自新加坡联合早报,主要是新闻领域,经过开放测试,该系统识别实体召回率46.02%,准确率为52.94%。  相似文献   

16.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

17.
在许多场合挖掘频繁闭合序列时,输入串数据库呈现实时动态增长的特点.分析Bide算法,给出并证明了闭合序列前缀中任意一个项目的后向扩展事件(BEE)项目交集随前缀的生长单调不增的定理,据此对BEE累计操作进行了优化,使其性能平均提高了48%.定义了闭合序列树作为频繁闭合序列的表示形式,并阐述了它的3个性质.分析发现,当新增输入串不同时包含前缀串和频繁项目时,两次连续挖掘的结果是相同的,给出了相应的定理和证明,据此实现了增量式频繁闭合序列挖掘算法BideInc.实验验证了BideInc算法的正确性,使用该算法后挖掘性能平均提高了47%.  相似文献   

18.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as ChineseVietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

19.
《汉语大词典》是当今规模最大、收词最为丰赡的大型语文辞书,但由于编写时种种条件的限制和多种因素的影响,尚存在种种缺失。本文根据佛经语料在汉语词汇研究和辞书编纂中的作用,对照《汉语大词典》的实际情况,用实例说明《汉语大词典》未能充分利用佛经语料而导致的“词语失收”、“义项缺失”、“书证过晚”三个方面的缺失,以引起人们对佛经语料的重视。  相似文献   

20.
癫痫病相关论文缺乏命名实体识别和关系抽取任务的标注数据,命名实体识别和关系抽取模型无法用常规方法训练。为解决该问题,针对癫痫病相关论文的数据特点,改进了命名实体识别和关系抽取模型,提出利用相近领域的医疗数据和预训练模型构建零资源癫痫病领域命名实体识别和关系抽取模型。评估了现有无监督和半监督模型在癫痫病领域论文数据集上的性能,并针对数据集特征引入域对抗网络和关系判别器,有效地提高了命名实体识别和关系抽取模型的性能。将癫痫患者的脑电特征以视觉模态嵌入知识图谱中,在提高脑电分析可解释性的同时,构建了更加直观的多模态知识图谱。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号