首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
现有的命名实体识别算法多半采用统计与规则相结合的办法,但是这些方法有的没有考虑全局信息,有的没有解决好统计模型的时间复杂性问题.提出一个简约语法规则和最大熵模型相结合的混合命名实体识别方法,该方法采用简约语法规则与最大熵模型级联,首先使用简约语法规则模型进行识别,降低了使用复杂语法规则的时间复杂度,并把它的输出进行部分匹配,很好的弥补了由于简约语法规则带来的召回率偏低的问题,然后将得到的中间结果作为输入传递给最大熵模型,再由最大熵模型进行识别,得到最终的识别结果.实验结果表明,在MUC-7的命名实体识别评测中,系统的准确率、召回率和F值分别达到了94%,91%和92.48%,与已有的系统相比在性能上有很大的提升.  相似文献   

2.
语言模型中一种改进的最大熵方法及其应用   总被引:13,自引:0,他引:13  
李涓子  黄昌宁 《软件学报》1999,10(3):257-263
最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力.但是,在用现有的最大熵方法建立统计模型时存在计算量大的问题.针对这一问题,提出了一种改进的最大熵方法.该方法使用互信息的概念,通过Z-测试进行特征选择.将该方法应用于汉语的义项排歧中,实验表明,该算法具有较高的计算效率和正确率.  相似文献   

3.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

4.
基于统计方法的中文姓名识别   总被引:27,自引:4,他引:23  
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。  相似文献   

5.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

6.
牛晓妍 《福建电脑》2008,24(4):72-74
本文针对人名的特点,建立了特征模板,并在此基础上提取了特征集,利用特征选择算法提取了有效特征,并建立了一个基于最大熵的人名识别模型。基于最大熵模型,探索性地构建了一个人名识别的系统,取得了较好的效果。该系统将潜在人名发现和使用最大熵模型进行标注两个阶段的工作有机地结合到一起。较好地解决了人名竞争问题;并对重点模块的算法进行了详细描述。  相似文献   

7.
基于最大熵模型的组块分析   总被引:39,自引:0,他引:39  
李素建  刘群  杨志峰 《计算机学报》2003,26(12):1722-1727
采用最大熵模型实现中文组块分析的任务.首先明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号.组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程,我们可以把它作为一个分类问题根据最大熵模型来解决.最大熵模型的关键是如何选取有效的特征,文中给出了相关的特征选择过程和算法.最后给出了系统实现和实验结果.  相似文献   

8.
统计机器翻译综述   总被引:21,自引:9,他引:21  
本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。  相似文献   

9.
统计与规则相结合的维吾尔语句子边界识别   总被引:1,自引:0,他引:1       下载免费PDF全文
句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。  相似文献   

10.
主要介绍如何建立最大熵模型以及应用最大熵模型实现垃圾邮件过滤的基本原理和方法。  相似文献   

11.
使用最大熵模型进行中文文本分类   总被引:51,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   

12.
在小世界网络中,节点或边的改变使网络结构发生了演变,这意味着网络的熵也发生变化,因此可用网络的熵描述网络形成过程。经模拟实验发现:网络熵的变化是U型的;重连概率p决定熵的单调程度,而网络节点度k影响熵由降到增转变的时间。实验结果有助于以后更有效地对网络进行控制以及设计更加有效的网络形成模型。  相似文献   

13.
针对概率犹豫模糊元的多个隶属度和其概率各不相同的特点,提出基于概率犹豫模糊熵的多属性决策方法.首先,定义3种新的概率犹豫模糊熵:模糊熵、犹豫熵和总熵,以分别测量概率犹豫模糊元的模糊性、犹豫性和整体不确定性;然后给出3种熵测度的公理化定义和表达式;最后,根据概率犹豫模糊元的3种熵,构建能够解决属性权重完全未知的多属性决策模型,并通过案例和对比分析验证所提模型的有效性和合理性.  相似文献   

14.
基于最大熵的汉语人名地名识别方法研究   总被引:7,自引:0,他引:7  
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.  相似文献   

15.
该文根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征,通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度,对文本中人名进行识别或对已识别的人名进行纠正。该文将可信度检测模块嵌入到一个简易的命名实体平台中,在MSRA的语料上进行测试,实验结果说明可信度模型使得平台的人名识别F值提高了2.27%,整个系统的人名识别F值达到了91.72%。  相似文献   

16.
基于最大类间后验交叉熵的阈值比分割算法   总被引:4,自引:1,他引:3       下载免费PDF全文
从目标和背景的类间差异性出发,提出了一种基于最大类间交叉熵准则的阈值化分割新算法,算法阈设目标的背景象素的条件分布服从正态分布,利用贝叶期公式估计象素属于目标和背景两类区域的后验概率,再搜索这两为区域后验概率之间的最大交叉熵。比较了新算法一基于最小交叉熵以及基于传统香农熵的阈值化算法的分割性能。  相似文献   

17.
一种图像隐蔽通信的安全模型   总被引:2,自引:0,他引:2  
安全性是图像隐蔽通信应用的前提条件。基于香农信息熵和相对熵的安全约束条件还存在不足,隐藏信息不能抵抗利用图像相关性的密写分析。深入分析了图像相邻像素的相关性,给出了基于像素相关的广义信息熵、相对熵和概率分布。提出了广义信息度量的信息隐藏模型,该模型满足隐藏信息的不可检测性,适应于图像隐蔽通信。给出了安全约束条件和信息隐藏方法,并进行了验证实验,给出了实验数据。实验结果表明,该安全模型具有理论和实用价值。  相似文献   

18.
基于期望值-混合熵的区间概率模糊随机多准则决策方法   总被引:1,自引:1,他引:0  
定义了区间概率模糊随机变量及其期望值和混合熵.针对准则权重确知并且准则值为区间概率模糊随机变量的多准则决策问题,提出一种基于期望值-混合熵的决策方法.该方法首先给出了区间概率模糊随机变量的期望值-混合熵度量;然后基于此度量建立优化模型,通过计算得到各方案的期望值-混合熵区间;再采用可能度的方法得到方案集的排序.最后通过实例说明了该方法的有效性和可行性.  相似文献   

19.
在最大熵分布估计算法中,根据Jaynes原理来建立分布估计算法中的概率密度。基于SVM的概率密度估计则是根据概率密度的定义,由核函数构造一个包含未知参数的概率密度函数。它根据样本点建立这个概率密度的数学规划模型,并用不敏感损失函数的支持向量机方法来求解这个模型。对得到的概率密度进行仿真测试,最后将得到的密度应用到分布估计算法中。  相似文献   

20.
The negation of probability distribution becomes an important topic since some problems are burdensome to deal with directly. Inspired by Yager's negation of probability distribution, an extension model to measure the negation of a probability distribution is proposed using the idea of a nonextensive statistic based on Tsallis entropy. Proofs show that the proposed extension of negation of probability distribution converges to the maximum Tsallis entropy. The proposed model may extend Yager's method to consider the influences of the correlations in a system, which gives the different convergent routes. Some numerical simulation results are used to illustrate the effectiveness of the proposed methodology.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号