共查询到17条相似文献,搜索用时 78 毫秒
1.
本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别达到了91.3%和90.6%,证明了此方法的有效性。 相似文献
2.
3.
4.
中文文本中外国人名与中国人名同步识别方法 总被引:1,自引:0,他引:1
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%. 相似文献
5.
基于可信度的中文完整词自动识别 总被引:1,自引:0,他引:1
中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。 相似文献
6.
7.
提出了一种基于位置概率模型的中文人名识别算法.系统的知识源来自于两个方面:人名列表以及标注语料库中提取的人名的左右边界词语.识别过程是:首先根据位置概率模型识别出篇章中可能的人名,然后扩散到整个篇章来召回遗漏人名,最后附加几条启发式规则来对结果进行修正.对40篇新闻语料共计120KB进行开放测试,准确率达80.5%,召回率为76.1%. 相似文献
8.
一种基于共坐标上升算法的人名识别方法 总被引:1,自引:1,他引:0
共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。 相似文献
9.
论文介绍在HENU汉语自动分词系统中对中文人名的自动识别算法。该算法在常用的规则和统计相结合方法基础之上,采用了局部回溯分词的思想,较好地解决了同姓异名对的冲突问题。在开放测试中,该方法取得了90.9%的准确率和95.9%的召回率。 相似文献
10.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。 相似文献
11.
基于混合模型的中国人名自动识别 总被引:3,自引:0,他引:3
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。 相似文献
12.
13.
基于统计的中文姓名识别方法研究 总被引:13,自引:2,他引:13
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。 相似文献
14.
15.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。 相似文献
16.
网络新闻口语评论文本中人物对象识别方法 总被引:1,自引:1,他引:0
网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对象的可靠度进行评估,以获得稳定的识别线索;其次,根据线索划定处理窗口,利用改进频繁项挖掘算法,从窗口中提取候选人物对象;最后,对结果中存在的冗余进行优化处理。实验结果表明,新方法能够完整、有效地识别网络新闻口语评论文本中的人物对象。 相似文献