共查询到18条相似文献,搜索用时 77 毫秒
1.
动词是中文信息处理的核心,是计算机对汉语进行分析和处理的基础。文章给出利用支持向量机法(SVM)进行动词-动词搭配的研究。首先构造训练特征库和学习特征库,然后利用高斯核函数将训练特征库中的样本映射为高维空间中的向量,使样本线性可分,求得超平面,最终实现SVM机的构造。通过对待测的1000句汉语句子应用SVM进行了动词搭配的自动识别分析,获得了开放测试抽取正确率为69.6%,召回率为67.8%的理想结果。 相似文献
2.
提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳. 相似文献
3.
在分析酒店评论文本倾向性过程中,针对某些评价词语所产生的歧义性问题,提出一种基于最大熵的评价搭配识别的方法。该方法通过构建极性词表,挖掘出评价词语类别作为语义特征,将其与词、词性、距离、否定词特征结合构成最大熵的复合模板,采用最大熵模型进行评价搭配识别。实验结果证明,采用构建的最大熵复合模板进行评价搭配识别具有较高的准确率和识别性能。 相似文献
4.
5.
提出了基于范例的动词-动词搭配关系类型标注方法,以选取的10万语料为基础构建范例库,开发了动词-动词搭配关系类型标注系统,并分别对5万语料中X不超过1的同现动词对和X超过1的同现动词对进行标注实验,标注正确率为93.17%。 相似文献
6.
7.
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。 相似文献
8.
特征选择在模式识别和数据挖掘等领域都有十分广泛的应用.然而,当涉及空间数据时,由于传统特征选择方法没有很好地考虑数据的空间特性,所以会导致特征选择结果性能下降.从空间数据本身的特性出发,提出一种特征选择方法MEFS(maximum entropy feature selection).MEFS在基于最大熵原理的基础上,运用互信息和Z-测试技术,采用两步方法进行空间特征选择.第1步,空间谓词选择;第2步,选择与每个空间谓词对应的相关属性集.最后,分别对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较.实验结果表明,MEFS方法不仅可以节约特征提取和分类时间,而且也极大地提高了分类质量. 相似文献
9.
张惠春 《数字社区&智能家居》2009,(8)
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。 相似文献
10.
构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果进行了分析。 相似文献
11.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。 相似文献
12.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。 相似文献
13.
14.
基于最大熵的经济预警研究 总被引:1,自引:0,他引:1
经济预警通过对经济发展趋势进行综合的判断,可以辅助人工决策。然而在实际经济预警中,经常出现多值警度难于方便处理以及某些经济指标的数据无法搜集完全的问题,这也是经济预警当前面临的主要问题。本文将最大熵方法引入经济预警,认为在对预警警度的所有相容的预测中,熵最大的预测出现的概率占绝对优势,以此通过特征补偿的方法有效处理了经济预警中经济数据缺失的问题,并通过计算各个警度出现的概率解决多值经济警度问题;同时,此方法无须满足特征独立性假设,训练速度快。最后,通过实验验证了该方法的有效性和高效性 相似文献
15.
16.
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。 相似文献
17.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。 相似文献
18.
A complex system is a system composed of many dynamic elements with mutual interactions. This paper proposes a unified approach
for the design of an information processing system using a complex system. The method of design is based on the maximum entropy
principle. After a detailed explanation, the proposed method is applied to the design of a spatial filter using a complex
system.
This work was presented, in part, at the International Symposium on Artificial Life and Robotics, Oita, Japan, February 18–20,
1996. 相似文献