共查询到20条相似文献,搜索用时 109 毫秒
1.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 相似文献
2.
3.
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。 相似文献
4.
基于词性探测的中文姓名识别算法 总被引:1,自引:0,他引:1
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。 相似文献
5.
6.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。 相似文献
7.
8.
文语转换系统中的中文姓名识别 总被引:6,自引:2,他引:4
针对文语转换系统的具体需求提出了易于实现的中文姓名识别算法,对姓氏用字与名字用字按它们的出现频率分为常用与较常用两类。由于姓名被包含在词语中的情况较少,因此姓名的识别是在分词后进行的,同时也提高了系统的处理效率。对于异读姓氏也进行了相应的处理。最后通过实验验证了算法的可行性,并提出了改进的方向。 相似文献
9.
10.
11.
12.
SVM与规则相结合的中文地名自动识别 总被引:4,自引:0,他引:4
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。 相似文献
13.
基于混合模型的中国人名自动识别 总被引:3,自引:0,他引:3
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。 相似文献
14.
用支持向量机进行中文地名识别的研究 总被引:3,自引:0,他引:3
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于舍特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果. 相似文献
15.
针对卫星通信系统安全检测问题,提出了一种基于重构降维分析的卫星辐射源个体识别方法.该方法通过提取所有卫星终端设备训练数据的高维特征向量,然后以监督方式寻找使得降维特征向量离同类最近、离异类边缘点最远的子空间,并利用降维特征向量训练分类器,最后利用分类器判决未知信号的类别.提出的卫星辐射源个体识别方法所提取的辐射源特征基于高维特征向量的线性组合,保留了不同发射机的差异信息,具备很强的分类辨别能力.实际采集的数据测试结果表明,该方法可有效识别不同辐射源个体. 相似文献
16.
17.
基于向量相似度计算的半监督的名实体识别 总被引:1,自引:1,他引:0
提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类.在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意. 相似文献
18.
Johann Poignant Guillaume Fortier Laurent Besacier Georges Quénot 《Multimedia Tools and Applications》2016,75(15):8999-9023
Persons’ identification in TV broadcast is one of the main tools to index this type of videos. The classical way is to use biometric face and speaker models, but, to cover a decent number of persons, costly annotations are needed. Over the recent years, several works have proposed to use other sources of names for identifying people, such as pronounced names and written names. The main idea is to form face/speaker clusters based on their similarities and to propagate these names onto clusters. In this paper, we propose a method to take advantage of written names during the diarization process, in order to both name clusters and prevent the fusion of two clusters named differently. First, we extract written names with the LOOV tool (Poignant et al. 2012); these names are associated to their co-occurring speaker turns / face tracks. Simultaneously, we build a multi-modal matrix of distances between speaker turns and face tracks. Then agglomerative clustering is performed on this matrix with the constraint to avoid merging clusters associated to different names. We also integrate the prediction of few biometric models (anchors, some journalists) to directly identify speaker turns / face tracks before the clustering process. Our approach was evaluated on the REPERE corpus and reached an F-measure of 68.2 % for speaker identification and 60.2 % for face identification. Adding few biometric models improves results and leads to 82.4 % and 65.6 % for speaker and face identity respectively. By comparison, a mono-modal, supervised person identification system with 706 speaker models trained on matching development data and additional TV and radio data provides 67.8 % F-measure, while 908 face models provide only 30.5 % F-measure. 相似文献
19.
应用小波变换和支持向量机的掌纹识别 总被引:1,自引:1,他引:0
提出了一种新颖的掌纹识别方案。应用两维的两通道和三通道小波变换来得到低频子带图像,然后将其系数作为特征进行提取。再选择支持向量机(Support Vector Machine,SVM)作为分类器。实验结果证明了这是一个简单而有效的识别方案,正确识别率可达100%。 相似文献
20.
随机域名是指由随机域名算法生成的域名,被针对计算机网络系统的恶意软件广泛使用,随机域名的检测任务是域名系统过滤攻击流量的基础性工作.传统方法对随机域名的检测效果不理想,精确率与召回率较低,导致过滤攻击流量时会出现较多的误判.本文提出和实现了一种基于GRU型循环神经网络的随机域名检测模型,该模型首先将域名转换成向量,然后借助GRU自动学习域名向量的特征,最后通过神经网络计算分类.相比于传统方法,该模型不再需要人工提取特征的过程,减少了特征提取的时间.且经过算法生成数据与真实场景数据的实验验证,该方法在随机域名检测任务中相比传统模型表现更加出色. 相似文献