首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
基于角色标注的中国人名自动识别研究   总被引:38,自引:0,他引:38  
该文提出了一种基于角色标注的中国人名自动识别方法。其基本思想是:根据在人名识别中的作用,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别。识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到。通过对16M字节真实语料库的封闭与开放测试,该方法取得了接近98%的召回率。文中介绍了计算所汉语词法分析系统ICTCLAS,集成人名识别算法之后,词法分析的准确率提高了1.41%,同时人名识别的综合指标F-1值达到了95.40%。不同实验从各个角度表明:基于角色标注的人名识别算法行之有效。  相似文献   

2.
摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。  相似文献   

3.
基于最大熵的汉语人名地名识别方法研究   总被引:7,自引:0,他引:7  
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.  相似文献   

4.
牛晓妍 《福建电脑》2008,24(4):72-74
本文针对人名的特点,建立了特征模板,并在此基础上提取了特征集,利用特征选择算法提取了有效特征,并建立了一个基于最大熵的人名识别模型。基于最大熵模型,探索性地构建了一个人名识别的系统,取得了较好的效果。该系统将潜在人名发现和使用最大熵模型进行标注两个阶段的工作有机地结合到一起。较好地解决了人名竞争问题;并对重点模块的算法进行了详细描述。  相似文献   

5.
基于姓氏驱动的中国姓名自动识别方法   总被引:3,自引:3,他引:3  
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。  相似文献   

6.
该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名对齐在大规模语料库的实验中达到了较好的人名对齐正确率和召回率。我们分析了人名对齐存在的主要错误,并针对主要错误给出了可能的解决方案。
  相似文献   

7.
<正>命名实体识别是文本信息处理中的一个研究热点,人名是命名实体的重要组成部分。本文主要讨论中文文本中人名识别的问题。所要识别的人名包括汉语人名、类汉语人名(如韩国人名、越南人名等)以及人名译名。在本文中,我们将其统一称为汉语人名。 由于最大熵模型具有简洁、通用和易于移植的特点,使用该模型在英文中进行命名实体识别已取得一定成效。本文结合中文文本中人名的特点,将对使用最大熵模型进行人名识别进行介绍,重点介绍特征选择方法。1 系统描述1.1 最大熵模型 对于给定的训练样本,最大熵模型应该选择一个与训练样本一致的概率分布,而对于观察不到的情况,模型赋予均匀的概率分布。满足上述特征的概率分布具有最大熵。这种分布是唯一的,并具有下述特征:  相似文献   

8.
针对汉语人名识别的难点,基于最大熵算法提出了结合多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998-01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。  相似文献   

9.
李波  张蕾 《计算机工程》2012,38(12):179-181
针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和 F值均有明显提高。  相似文献   

10.
针对与服务机器人交互过程中不受限的自然语言指令,提出了一种基于语料库的最大熵分类及理解算法。首先,通过收集家庭服务领域内的机器人控制语料,设计了一套有效的机器人控制指令体系。然后,对语料库进行对应控制指令的类别标注,从而把自然语言指令理解问题转化为分类问题。其次,通过对库中文本特征的提取和附加权重,建立最大熵分类器求解分类问题。最后,通过在所建控制指令语料库上进行多重交叉训练测试,控制指令理解的准确率可以达到90%以上。  相似文献   

11.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。  相似文献   

12.
李晓林  黄爽  卢涛  李霖 《计算机应用》2017,37(3):876-882
由于互联网上中文地址的非规范化表达,导致互联网中的中文地址信息在地理位置服务中难以直接应用。针对此问题,提出一种非规范中文地址的行政区划提取算法。首先,对原始数据进行“路”特征词分组预处理;再利用行政区划字典和移动窗口最大匹配算法,从中文地址中提取所有可能的行政区划数据集;然后,利用中文地址行政区划元素之间具有层次关系的特点,建立行政区划条件集合运算规则,对获取的数据集进行集合运算;再利用行政区划匹配度建立一种行政区划集合解析规则,来计算行政区划可信度;最后,得到可信度最大信息量最完整的中文地址的行政区划。利用从互联网中提取的约25万条中文地址数据进行是否采用“路”特征词分组处理以及是否进行可信度计算处理,对算法的可用性进行了验证,并与目前的地址匹配技术进行对比,准确率达到93.51%。  相似文献   

13.
基因数据的特点是高维度、小样本、大噪声,在处理过程中容易造成维数灾难和过度拟合等问题。针对这种情况提出一种新的基因数据集的特征选择方法,第一步是通过ReliefF算法对基因特征进行权重重要度的筛选;第二步是对筛选过的特征集合进行mRMR算法判断,留下与目标类别高度相关而其间相关性较小的基因特征;第三步利用邻域粗糙集特征选择算法对简化后的基因数据集进行寻优处理,选出最优化的特征基因子集。为了证明新算法的有效性,以SVM为分类器,使用外部交叉验证法对整个过程来计算,从而验证本文新特征选择方法的有效性。  相似文献   

14.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTA-PLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chi-nese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于 MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。  相似文献   

15.
针对图像光照的变化对静态头部姿态估计的影响,该文提出一种基于有向梯度直方图和主成分分析的姿态特征,并利用SVM分类器进行分类。该算法分别在CMU姿态、光照、表情数据库和CVL人脸图像库上进行了测试。实验表明,即使图像光照变化很大,该算法仍可准确地估计头部姿态,识别率达到90%以上。  相似文献   

16.
将RgPCA算法应用于表情图像的特征提取。其核心思想:先用PCA处理表情图像,提取表情特征;然后,将此表情特征集作为一个粗糙集用FAI算法进行约筒,从而实现表情特征选择。RgPCA算法继承了PCA在特征提取时的简洁,并充分考虑模式分类的要求.提高了特征选择的科学性。  相似文献   

17.
目的 针对目标在跟踪过程中出现剧烈形变,特别是剧烈尺度变化的而导致跟踪失败情况,提出融合图像显著性与特征点匹配的目标跟踪算法。方法 首先利用改进的BRISK(binary robust invariant scalable keypoints)特征点检测算法,对视频序列中的初始帧提取特征点,确定跟踪算法中的目标模板和目标模板特征点集合;接着对当前帧进行特征点检测,并与目标模板特征点集合利用FLANN(fast approximate nearest neighbor search library)方法进行匹配得到匹配特征点子集;然后融合匹配特征点和光流特征点确定可靠特征点集;再后基于可靠特征点集和目标模板特征点集计算单应性变换矩阵粗确定目标跟踪框,继而基于LC(local contrast)图像显著性精确定目标跟踪框;最后融合图像显著性和可靠特征点自适应确定目标跟踪框。当连续三帧目标发生剧烈形变时,更新目标模板和目标模板特征点集。结果 为了验证算法性能,在OTB2013数据集中挑选出具有形变特性的8个视频序列,共2214帧图像作为实验数据集。在重合度实验中,本文算法能够达到0.567 1的平均重合度,优于当前先进的跟踪算法;在重合度成功率实验中,本文算法也比当前先进的跟踪算法具有更好的跟踪效果。最后利用Vega Prime仿真了无人机快速抵近飞行下目标出现剧烈形变的航拍视频序列,序列中目标的最大形变量超过14,帧间最大形变量达到1.72,实验表明本文算法在该视频序列上具有更好的跟踪效果。本文算法具有较好的实时性,平均帧率48.6帧/s。结论 本文算法能够实时准确的跟踪剧烈形变的目标,特别是剧烈尺度变化的目标。  相似文献   

18.
将RgPCA算法应用于表情图像的特征提取。其核心思想:先用PCA处理表情图像,提取表情特征;然后,将此表情特征集作为一个粗糙集用FAI算法进行约简,从而实现表情特征选择。RgPCA算法继承了PCA在特征提取时的简洁,并充分考虑模式分类的要求,提高了特征选择的科学性。  相似文献   

19.
An important aspect in designing interactive, action-based interfaces is reliably recognizing actions with minimal latency. High latency causes the system’s feedback to lag behind user actions and thus significantly degrades the interactivity of the user experience. This paper presents algorithms for reducing latency when recognizing actions. We use a latency-aware learning formulation to train a logistic regression-based classifier that automatically determines distinctive canonical poses from data and uses these to robustly recognize actions in the presence of ambiguous poses. We introduce a novel (publicly released) dataset for the purpose of our experiments. Comparisons of our method against both a Bag of Words and a Conditional Random Field (CRF) classifier show improved recognition performance for both pre-segmented and online classification tasks. Additionally, we employ GentleBoost to reduce our feature set and further improve our results. We then present experiments that explore the accuracy/latency trade-off over a varying number of actions. Finally, we evaluate our algorithm on two existing datasets.  相似文献   

20.
针对传统特征点配准算法效率过慢、对特征点存在误检的现象,提出了一种基于特征点检测的图像配准算法.对特征点检测方法进行了改进,利用像素点与周围像素点的灰度关系滤除非特征点;对剩余的点使用提出的菱形模版进行精确检测,建立了特征点集合;利用迭代最近点(ICP)算法对特征点集合进行配准.实验结果表明:改进算法在特征点检测准确性和检测时间上明显提高,并且具有良好配准效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号