首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
基于最大熵模型的语义角色标注   总被引:1,自引:0,他引:1  
提出了基于最大熵模型的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将最大熵模型用于句子中谓词的语义角色标注.该方法的关键在于模型参数估计和特征选择.具体应用中采用IIS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分一谓词关系、语义四类特征作为模型特征集.将该方法用于信息抽取中事件表述语句的语义角色标注,对"职务变动"和"会见"两类事件的表述语句进行事件要素的语义角色标注,在各自的测试集上分别获得了76.3%和72.2%的综合指标F值.  相似文献   

2.
隐马尔可夫模型(HMM)基于n-元语法的标注效果虽然不错,但由于预测信息的不足,对汉语的词性标注,特别是未登录词的词性标注精度影响很大。而最大熵模型使用特征的形式,有效的利用了上下文信息,在一定的约束条件下可以得到与训练数据一致的概率分布,即使是未登录词,由于其丰富的上下文信息,对它的词性标注也起到了很好的预测作用。实验结果证明最大熵方法取得了较好的标注效果。  相似文献   

3.
柯逍  邹嘉伟  杜明智  周铭柯 《电子学报》2017,45(12):2925-2935
针对传统图像标注模型存在着训练时间长、对低频词汇敏感等问题,该文提出了基于蒙特卡罗数据集均衡和鲁棒性增量极限学习机的图像自动标注模型.该模型首先对公共图像库的训练集数据进行图像自动分割,选择分割后相应的种子标注词,并通过提出的基于综合距离的图像特征匹配算法进行自动匹配以形成不同类别的训练集.针对公共数据库中不同标注词的数据规模相差较大,提出了蒙特卡罗数据集均衡算法使得各个标注词间的数据规模大体一致.然后针对单一特征描述存在的不足,提出了多尺度特征融合算法对不同标注词图像进行有效的特征提取.最后针对传统极限学习机存在的隐层节点随机性和输入向量权重一致性的问题,提出了鲁棒性增量极限学习,提高了判别模型的准确性.通过在公共数据集上的实验结果表明:该模型可以在很短时间内实现图像的自动标注,对低频词汇具有较强的鲁棒性,并且在平均召回率、平均准确率、综合值等多项指标上均高于现流行的大多数图像自动标注模型.  相似文献   

4.
基于最大熵的隐马尔可夫模型文本信息抽取   总被引:29,自引:3,他引:26       下载免费PDF全文
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

5.
一种给批量汉字加注带有声调拼音的方法   总被引:1,自引:1,他引:0  
由于汉字存在着多音字的情况,所以给汉字加注带有声调的拼音带来了困难.为了解决这一问题,设计了单字与词语相结合的加注方法.首先构建了带有声调的拼音字典和词典,拼音字典中同一个多音字的拼音按照使用频率进行排放,并且对词典中的词语按照最后一个字进行了索引;然后设计了基于整词二分的二层索引结构,实现了改进的最大逆向分词算法;最后设计了三种实验方案,进行了对比实验.实验结果表明,在没有使用该方法前它的错误率为11%,使用后错误率下降为0.09%.  相似文献   

6.
孙广路  王晓龙  刘秉权  关毅 《电子学报》2008,36(12):2450-2453
 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.  相似文献   

7.
二态隐马尔可夫过程熵率的逼近算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于熵率上下界收敛性,该文提出了一个算法以计算二态隐马尔可夫过程的熵率.该算法能以任意精度逼近熵率的理论值,且可计算最大偏差.算法的复杂度的对数和误差的对数为线性关系,因此其计算代价是可以接受的.该算法为计算一般隐马尔可夫模型的熵率提供了一种新途径.  相似文献   

8.
针对传统图像放大处理过程中出现的边缘模糊和噪声干扰问题,分析了Tikhonov正则化模型对带噪图像放大处理的缺陷.在最大后验估计(MAP)和熵理论基础上,提出了一种基于熵变分的带噪图像放大模型及其算法.该算法利用图像像素点梯度信息自适应的各向异性滤波处理,在较好的保持图像边缘锐度的同时有效地克服了图像噪声的影响,理论分析和实验结果皆表明此算法的有效性.  相似文献   

9.
基于最大熵的分布估计算法   总被引:1,自引:1,他引:1  
分布估计算法是当前进化计算领域的一个新方向。文中提出一种新的基于最大熵的分布估计算法,主要用基于最大熵估计种群中的模式概率分布,取代贝叶斯网络分布估计算法中的贝叶斯概率图模型。该算法无需进行贝叶斯网络学习,大大减少了计算量,而且还能获取更准确的概率分布估计。实验结果表明,与贝叶斯优化算法相比,该算法具有更高的稳定性和更强的寻优能力。  相似文献   

10.
音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的应用。本文首先回顾了词树的理论知识,然后对词树进行求解,最后对词树进行剪枝,随之,对产生的多音字进行处理。基于上面的理论,提出了一种基于语言模型实现音字转换的高效解码算法,这种算法涉及到零概率重估、路径剪枝和多音字处理等多项技术,实验结果表明这种算法可以达到97.78%的准确率,与以往的算法相比,效果比较显著。  相似文献   

11.
中文分词歧义识别算法的优化   总被引:1,自引:1,他引:0  
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。  相似文献   

12.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

13.
The estimate of the entropy of a language by assuming that the word probabilities follow Zipf's law is discussed briefly. Previous numerical results [3] on the vocabulary size implied by Zipf's law and entropy per word are corrected. The vocabulary size should be 12 366 words (not 8727 words) and the entropy per word 9.27 bits (not 11.82).  相似文献   

14.
关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。  相似文献   

15.
李丽宏  华国光 《激光技术》2019,43(1):119-124
为了解决传统最大2维熵分割算法计算量大、耗时较多等缺陷,提出一种基于改进遗传算法的最大2维熵图像分割法。通过对遗传算法变异操作方式进行改进,提高遗传算法寻找最大2维熵分割阈值的速度,加速分割算法对图像的分割,并进行了仿真实验验证。结果表明,改进模型的运行时间被压缩到了0.95s,远远低于传统的最大2维熵分割法。改进的分割方法实现了分割效率的提高,同时也保证了图像的分割精度。  相似文献   

16.
谢亮 《半导体光电》2016,37(6):894-898
针对传统的医学图像分割算法存在组织边缘模糊、灰度不均匀和图像噪声高的问题,将信息熵和改进的粒子群算法相结合,提出了一种基于信息熵和改进的粒子群算法的医学图像分割方法,在确保信息熵最大的条件下,实现医学图像的最佳阈值分割.将信息熵最大化作为适应度函数,通过改进的粒子群算法优化获得最佳分割门限,实现医学图像的最佳阈值分割.选择不合噪声和含噪声的脑部图像为研究对象,通过直观分析、客观分析和分割速度分析发现,提出的新方法在很大程度上克服了传统医学图像分割算法存在的缺陷,分割速度和精度得到显著提升;与此同时,新的算法具有很强的鲁棒性和抗噪声能力.  相似文献   

17.
Using ideas from one-dimensional maximum entropy spectral estimation a two-dimensional spectral estimator is derived by extrapolating the two-dimensional sampled autocorrelation (or covariance) function. The method used maximizes the entropy of a set of random variables. The extrapolation (or prediction) process under this maximum entropy condition is shown to correspond to the most random extension or equivalently to the maximization of the mean-square prediction error when the optimum predictor is used. The two-dimensional extrapolation must he terminated by the investigator. The Fourier transform of the extrapolated autocorrelation function is the two-dimensional spectral estimator. Using this method one can apply windowing prior to calculating the spectral estimate. A specific algorithm for estimating the two-dimensional spectrum is presented, and its computational complexity is estimated. The algorithm has been programmed and computer examples are presented.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号