共查询到17条相似文献,搜索用时 234 毫秒
1.
基于最大熵模型的语义角色标注 总被引:1,自引:0,他引:1
提出了基于最大熵模型的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将最大熵模型用于句子中谓词的语义角色标注.该方法的关键在于模型参数估计和特征选择.具体应用中采用IIS算法学习模型参数,并选择基于句法成分的、基于谓词的、句法成分一谓词关系、语义四类特征作为模型特征集.将该方法用于信息抽取中事件表述语句的语义角色标注,对"职务变动"和"会见"两类事件的表述语句进行事件要素的语义角色标注,在各自的测试集上分别获得了76.3%和72.2%的综合指标F值. 相似文献
2.
3.
针对传统图像标注模型存在着训练时间长、对低频词汇敏感等问题,该文提出了基于蒙特卡罗数据集均衡和鲁棒性增量极限学习机的图像自动标注模型.该模型首先对公共图像库的训练集数据进行图像自动分割,选择分割后相应的种子标注词,并通过提出的基于综合距离的图像特征匹配算法进行自动匹配以形成不同类别的训练集.针对公共数据库中不同标注词的数据规模相差较大,提出了蒙特卡罗数据集均衡算法使得各个标注词间的数据规模大体一致.然后针对单一特征描述存在的不足,提出了多尺度特征融合算法对不同标注词图像进行有效的特征提取.最后针对传统极限学习机存在的隐层节点随机性和输入向量权重一致性的问题,提出了鲁棒性增量极限学习,提高了判别模型的准确性.通过在公共数据集上的实验结果表明:该模型可以在很短时间内实现图像的自动标注,对低频词汇具有较强的鲁棒性,并且在平均召回率、平均准确率、综合值等多项指标上均高于现流行的大多数图像自动标注模型. 相似文献
4.
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 相似文献
5.
一种给批量汉字加注带有声调拼音的方法 总被引:1,自引:1,他引:0
马志强 《微电子学与计算机》2008,25(4):185-188
由于汉字存在着多音字的情况,所以给汉字加注带有声调的拼音带来了困难.为了解决这一问题,设计了单字与词语相结合的加注方法.首先构建了带有声调的拼音字典和词典,拼音字典中同一个多音字的拼音按照使用频率进行排放,并且对词典中的词语按照最后一个字进行了索引;然后设计了基于整词二分的二层索引结构,实现了改进的最大逆向分词算法;最后设计了三种实验方案,进行了对比实验.实验结果表明,在没有使用该方法前它的错误率为11%,使用后错误率下降为0.09%. 相似文献
6.
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能. 相似文献
7.
8.
9.
基于最大熵的分布估计算法 总被引:1,自引:1,他引:1
分布估计算法是当前进化计算领域的一个新方向。文中提出一种新的基于最大熵的分布估计算法,主要用基于最大熵估计种群中的模式概率分布,取代贝叶斯网络分布估计算法中的贝叶斯概率图模型。该算法无需进行贝叶斯网络学习,大大减少了计算量,而且还能获取更准确的概率分布估计。实验结果表明,与贝叶斯优化算法相比,该算法具有更高的稳定性和更强的寻优能力。 相似文献
10.
音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的应用。本文首先回顾了词树的理论知识,然后对词树进行求解,最后对词树进行剪枝,随之,对产生的多音字进行处理。基于上面的理论,提出了一种基于语言模型实现音字转换的高效解码算法,这种算法涉及到零概率重估、路径剪枝和多音字处理等多项技术,实验结果表明这种算法可以达到97.78%的准确率,与以往的算法相比,效果比较显著。 相似文献
11.
中文分词歧义识别算法的优化 总被引:1,自引:1,他引:0
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 相似文献
12.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。 相似文献
13.
《IEEE transactions on information theory / Professional Technical Group on Information Theory》1974,20(5):650-650
The estimate of the entropy of a language by assuming that the word probabilities follow Zipf's law is discussed briefly. Previous numerical results [3] on the vocabulary size implied by Zipf's law and entropy per word are corrected. The vocabulary size should be 12 366 words (not 8727 words) and the entropy per word 9.27 bits (not 11.82). 相似文献
14.
15.
16.
针对传统的医学图像分割算法存在组织边缘模糊、灰度不均匀和图像噪声高的问题,将信息熵和改进的粒子群算法相结合,提出了一种基于信息熵和改进的粒子群算法的医学图像分割方法,在确保信息熵最大的条件下,实现医学图像的最佳阈值分割.将信息熵最大化作为适应度函数,通过改进的粒子群算法优化获得最佳分割门限,实现医学图像的最佳阈值分割.选择不合噪声和含噪声的脑部图像为研究对象,通过直观分析、客观分析和分割速度分析发现,提出的新方法在很大程度上克服了传统医学图像分割算法存在的缺陷,分割速度和精度得到显著提升;与此同时,新的算法具有很强的鲁棒性和抗噪声能力. 相似文献
17.
《IEEE transactions on information theory / Professional Technical Group on Information Theory》1980,26(5):554-560
Using ideas from one-dimensional maximum entropy spectral estimation a two-dimensional spectral estimator is derived by extrapolating the two-dimensional sampled autocorrelation (or covariance) function. The method used maximizes the entropy of a set of random variables. The extrapolation (or prediction) process under this maximum entropy condition is shown to correspond to the most random extension or equivalently to the maximization of the mean-square prediction error when the optimum predictor is used. The two-dimensional extrapolation must he terminated by the investigator. The Fourier transform of the extrapolated autocorrelation function is the two-dimensional spectral estimator. Using this method one can apply windowing prior to calculating the spectral estimate. A specific algorithm for estimating the two-dimensional spectrum is presented, and its computational complexity is estimated. The algorithm has been programmed and computer examples are presented. 相似文献