首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。  相似文献   

2.
结合决策树方法的中文姓名识别   总被引:4,自引:2,他引:4  
中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。  相似文献   

3.
刘竞  苏万力 《福建电脑》2006,(7):92-92,96
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。  相似文献   

4.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

5.
基于语料库的中文姓名识别方法研究   总被引:32,自引:7,他引:25  
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。  相似文献   

6.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

7.
中文姓名识别是中文信息处理中未登录词处理的范畴,同时也是中文文本特征词处理的重要部份。针对中文姓名构成的一般规律和特征,本文进行姓氏用字驱动与统计相结合的中文姓名识别方法的研究,该方法以中文姓氏为驱动,并以此为线索,再结合统计方法评价姓名的真实性。  相似文献   

8.
文语转换系统中的中文姓名识别   总被引:6,自引:2,他引:4  
针对文语转换系统的具体需求提出了易于实现的中文姓名识别算法,对姓氏用字与名字用字按它们的出现频率分为常用与较常用两类。由于姓名被包含在词语中的情况较少,因此姓名的识别是在分词后进行的,同时也提高了系统的处理效率。对于异读姓氏也进行了相应的处理。最后通过实验验证了算法的可行性,并提出了改进的方向。  相似文献   

9.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

10.
基于统计方法的中文姓名识别   总被引:27,自引:4,他引:23  
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。  相似文献   

11.
提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用支持向量机进行人名识别的机器学习模型。实验结果表明,所建立的SVM人名识别模型是有效的。  相似文献   

12.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

13.
基于混合模型的中国人名自动识别   总被引:3,自引:0,他引:3  
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。  相似文献   

14.
用支持向量机进行中文地名识别的研究   总被引:3,自引:0,他引:3  
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于舍特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果.  相似文献   

15.
贾永强  甘露 《测控技术》2017,36(11):14-17
针对卫星通信系统安全检测问题,提出了一种基于重构降维分析的卫星辐射源个体识别方法.该方法通过提取所有卫星终端设备训练数据的高维特征向量,然后以监督方式寻找使得降维特征向量离同类最近、离异类边缘点最远的子空间,并利用降维特征向量训练分类器,最后利用分类器判决未知信号的类别.提出的卫星辐射源个体识别方法所提取的辐射源特征基于高维特征向量的线性组合,保留了不同发射机的差异信息,具备很强的分类辨别能力.实际采集的数据测试结果表明,该方法可有效识别不同辐射源个体.  相似文献   

16.
一种基于星三角形的星图识别算法   总被引:1,自引:1,他引:0  
提出了一种基于星三角形的星图识别算法。根据星三角形构造其对应的模式向量,按照三角形周长进行升序排列,并构造辅助索引向量,提高搜索效率;通过分析三角形算法产生误匹配或冗余匹配的主要原因,根据估计最大位置误差建立相近模式向量表,以提高识别成功率。仿真实验表明:当位置噪声在估计最大位置误差范围以内时,本算法识别成功率可达99%以上,平均识别时间为1.8ms,很好地满足了星图识别的要求:  相似文献   

17.
基于向量相似度计算的半监督的名实体识别   总被引:1,自引:1,他引:0  
提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类.在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意.  相似文献   

18.
Persons’ identification in TV broadcast is one of the main tools to index this type of videos. The classical way is to use biometric face and speaker models, but, to cover a decent number of persons, costly annotations are needed. Over the recent years, several works have proposed to use other sources of names for identifying people, such as pronounced names and written names. The main idea is to form face/speaker clusters based on their similarities and to propagate these names onto clusters. In this paper, we propose a method to take advantage of written names during the diarization process, in order to both name clusters and prevent the fusion of two clusters named differently. First, we extract written names with the LOOV tool (Poignant et al. 2012); these names are associated to their co-occurring speaker turns / face tracks. Simultaneously, we build a multi-modal matrix of distances between speaker turns and face tracks. Then agglomerative clustering is performed on this matrix with the constraint to avoid merging clusters associated to different names. We also integrate the prediction of few biometric models (anchors, some journalists) to directly identify speaker turns / face tracks before the clustering process. Our approach was evaluated on the REPERE corpus and reached an F-measure of 68.2 % for speaker identification and 60.2 % for face identification. Adding few biometric models improves results and leads to 82.4 % and 65.6 % for speaker and face identity respectively. By comparison, a mono-modal, supervised person identification system with 706 speaker models trained on matching development data and additional TV and radio data provides 67.8 % F-measure, while 908 face models provide only 30.5 % F-measure.  相似文献   

19.
应用小波变换和支持向量机的掌纹识别   总被引:1,自引:1,他引:0  
提出了一种新颖的掌纹识别方案。应用两维的两通道和三通道小波变换来得到低频子带图像,然后将其系数作为特征进行提取。再选择支持向量机(Support Vector Machine,SVM)作为分类器。实验结果证明了这是一个简单而有效的识别方案,正确识别率可达100%。  相似文献   

20.
随机域名是指由随机域名算法生成的域名,被针对计算机网络系统的恶意软件广泛使用,随机域名的检测任务是域名系统过滤攻击流量的基础性工作.传统方法对随机域名的检测效果不理想,精确率与召回率较低,导致过滤攻击流量时会出现较多的误判.本文提出和实现了一种基于GRU型循环神经网络的随机域名检测模型,该模型首先将域名转换成向量,然后借助GRU自动学习域名向量的特征,最后通过神经网络计算分类.相比于传统方法,该模型不再需要人工提取特征的过程,减少了特征提取的时间.且经过算法生成数据与真实场景数据的实验验证,该方法在随机域名检测任务中相比传统模型表现更加出色.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号