首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
正确标记短语间的停顿,对提高文语转换系统合成语音的自然度起着重要作用。介绍一种采用最大熵模型从真实自然的语音流中自动识别汉语短语间停顿的方法。模型的特征集包含语音和词法两类特征,采用半自动的方式获得。首先由人工根据经验设计候选特征集,然后采用特征选择算法对候选特征进行筛选,选择更有效的特征构成最终特征集,并训练生成用于汉语短语间停顿识别的最大熵模型。3组实验的结果表明,模型能够取得比较满意的短语间停顿识别效果。  相似文献   

2.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。  相似文献   

3.
基于最大熵模型的中国人名自动识别   总被引:1,自引:0,他引:1       下载免费PDF全文
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。  相似文献   

4.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。  相似文献   

5.
基于最大熵模型预测蛋白质结构的分类   总被引:1,自引:0,他引:1  
基于最大熵模型,构建一种简单的预测蛋白质序列结构分类的算法。不同性质的氨基酸组合,在特定结构的蛋白质二级结构中,出现的频率不同,通过在模体数据库Prosite中查找蛋白质序列匹配的模体,以10种氨基酸组合在序列中出现的频率,表示蛋白质序列的特征,构建相应的结构分类预测模型。最大熵模型用来确定蛋白质结构分类预测模型的参数。以自身一致性和Jackknife测试方法验证分类模型的准确性。结果表明新构建的方法简单、准确,综合性能优于一般的预测方法。  相似文献   

6.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

7.
邮件分类是指在给定的分类体系下,根据邮件的内容和属性,确定其类别标签的过程。将最大熵模型应用于邮件分类中,给出了邮件的预处理过程,介绍了邮件信头特征,分析比较了特征数量和迭代次数、邮件特征字段对分类结果的影响,以及对层次分类和平面分类的效果进行了比较。实验表明,特征数量和迭代次数分别取2 000和250时为宜;充分利用邮件各字段信息,取得的总体分类效果最好,但对合法邮件,利用邮件头及邮件标题却取得了最好结果,并在层次分类中验证了这点,层次分类效果要优于平面分类。最后进行了总结和展望。  相似文献   

8.
基于最大熵的经济预警研究   总被引:1,自引:0,他引:1  
经济预警通过对经济发展趋势进行综合的判断,可以辅助人工决策。然而在实际经济预警中,经常出现多值警度难于方便处理以及某些经济指标的数据无法搜集完全的问题,这也是经济预警当前面临的主要问题。本文将最大熵方法引入经济预警,认为在对预警警度的所有相容的预测中,熵最大的预测出现的概率占绝对优势,以此通过特征补偿的方法有效处理了经济预警中经济数据缺失的问题,并通过计算各个警度出现的概率解决多值经济警度问题;同时,此方法无须满足特征独立性假设,训练速度快。最后,通过实验验证了该方法的有效性和高效性  相似文献   

9.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

10.
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。  相似文献   

11.
语义块切分是HNC理论的重要课题,与以往的处理策略不同,采用统计建模的方法来解决这一问题。采用词语、词性、概念等信息组成特征模板,并应用增量方法进行特征选择,构建了一个基于最大熵模型的语义块切分系统。在HNC标注语料库上的测试取得了较好的效果,开放测试的正确率和召回率分别达到了83.78%和91.17%。  相似文献   

12.
最大熵分割算法对于目标与背景之间界限模糊的图像分割效果较好,但该算法对图像边缘的处理能力较差。最大类间方差分割算法对图像边缘的识别能力较强,但该算法对于目标和背景之间界限模糊的图像分割效果不好。针对上述问题,提出了一种基于最大类间方差的最大熵图像分割算法,该算法既能很好地对目标与背景之间界限模糊的图像进行分割,又能有效地识别图像的边缘。实验结果表明,本文所提算法对目标与背景之间界限模糊的图像的分割效果以及对图像边缘的识别能力均优于传统的最大类间方差算法和最大熵算法,且具有更好的有效性和鲁棒性。  相似文献   

13.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。  相似文献   

14.
基于最大熵分类器的Deep Web查询接口自动判定   总被引:1,自引:0,他引:1  
Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。  相似文献   

15.
目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。  相似文献   

16.
在很多智能系统的参数建模时,用户往往面对建模样本稀少的困境。针对在小数据集条件下贝叶斯网络(BN)参数建模的问题,提出了一种约束数据最大熵BN参数学习算法(CDME)。首先利用小数据集估算BN参数,随后把定性的专家经验转换为不等式约束,并利用Bootstrap算法生成满足约束的一组参数候选集,再根据信息最大熵进行加权计算出BN参数。实验结果表明,当数据量充分时,CDME参数学习算法与经典的MLE算法的学习精度近似,表明了算法的正确性;在小数据集条件下,利用CDME算法,可以对BN进行参数建模,学习精度优于MLE算法和QMAP算法。CDME算法在实际故障诊断样本数据相对稀缺的条件下,获取了诊断BN模型参数,在此基础上完成的诊断推理结果也印证了算法的有效性,为小数据集条件下的参数建模提供了一条新途径。  相似文献   

17.
提出一种密度敏感模糊核最大熵聚类算法.该算法首先通过核函数将原始非线性非高斯的数据集转化为核空间数据集,然后利用核函数的相似性抵消不属于该聚类的样本数据在聚类过程中对聚类中心求解的干扰,消除正则化系数对聚类结果的影响,进而抑制传统最大熵聚类算法的趋同性.最后通过引入相对密度项,解决因样本数据在特征空间的分布差异而导致的聚类中心求解偏差问题,从而提高聚类结果的准确性.实验部分,本文讨论了算法参数间的关系以及对聚类结果的影响.通过与传统模糊C均值聚类算法、核模糊C均值聚类算法、最大熵聚类算法、最大熵规范化权重核模糊C均值聚类算法以及其他两种改进最大熵聚类算法的聚类结果进行对比分析,结果表明本文提出的密度敏感模糊核最大熵聚类算法的聚类性能明显优于其他算法.  相似文献   

18.
传统的手指语识别采用卷积神经网络的方法,模型结构单一,在池化层会丢弃很多信息; Capsule(胶囊)是在神经网络中构建和抽象出的子网络,每个胶囊都专注于一些单独的任务,又能保留图像的空间特征。分析了中国手语中手指语的特征,构建并扩展了手指语图片训练集,试图用CapsNet(胶囊网络)模型解决手指语的识别任务,对比了不同参数下CapsNet的识别率,并与经典的GoogLeNet卷积网络作对比。实验结果表明,CapsNet在手语识别任务上能达到较好的识别效果。  相似文献   

19.
《Information & Management》2016,53(8):978-986
With the rapid proliferation of Web 2.0, the identification of emotions embedded in user-contributed comments at the social web is both valuable and essential. By exploiting large volumes of sentimental text, we can extract user preferences to enhance sales, develop marketing strategies, and optimize supply chain for electronic commerce. Pieces of information in the social web are usually short, such as tweets, questions, instant messages, messages, and news headlines. Short text differs from normal text because of its sparse word co-occurrence patterns, which hampers efforts to apply social emotion classification models. Most existing methods focus on either exploiting the social emotions of individual words or the association of social emotions with latent topics learned from normal documents. In this paper, we propose a topic-level maximum entropy (TME) model for social emotion classification over short text. TME generates topic-level features by modeling latent topics, multiple emotion labels, and valence scored by numerous readers jointly. The overfitting problem in the maximum entropy principle is also alleviated by mapping the features to the concept space. An experiment on real-world short documents validates the effectiveness of TME on social emotion classification over sparse words.  相似文献   

20.
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1 000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号