共查询到19条相似文献,搜索用时 140 毫秒
1.
基于置信传播算法的低密度校验码量化译码设计 总被引:2,自引:0,他引:2
介绍了二元输入连续输出无记忆AWGN信道下低密度校验 (LDPC)码的置信传播译码算法及其密度进化特性 .根据密度进化规律 ,分析了不同消息空间中的量化译码问题 .得出结论如下 :对于概率和概率差消息 ,只有高阶均匀量化才能获得满意的译码性能 ;似然比消息的适当对数量化可等价于对数似然比消息的均匀量化 ;对数似然比消息易于实现相对信道输入± 1的无偏对称量化 ,并有效利用消息的统计特性 .由非均匀量化在大消息区域分配的量化电平可以有效地促进算法收敛 .仿真结果表明 ,低阶非均匀量化优于均匀量化 相似文献
2.
似然比检验是一种应用比较广泛的检验方法,本文将它应用到随机二元序列独立性的考察中,并进行定量分析。 相似文献
3.
基于语境信息的汉语组合型歧义消歧方法 总被引:2,自引:0,他引:2
组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息,应用对数似然比建立了语境计算模型,并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上,1.使用语境信息中对数似然比的最大值进行消歧;2.使用语境信息中合、分两种情况下各自的对数似然比之和,取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验,前者的平均准确率为84.93%,后者的平均准确率为95.60%。实验证明使用语境信息之和对消解组合型分词歧义具有良好效果。 相似文献
4.
词汇级复述研究旨在为词汇获取复述.词汇级复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词.提出了一种获取上下文相关词汇级复述的方法.该方法包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认.在《人民日报》语料库上的实验结果表明:(1) 基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3 个正确复述词;(2) 利用二元分类的方法进行复述确认是有效的,其F 值达到0.6023;(3) 利用该方法抽取得到的复述中,有75.11%和98.31%无法通过两种常用的上下文无关方法,即基于辞典和基于聚类的方法来获得.这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法. 相似文献
5.
传统方法在对高维稀疏数据进行检测的过程中,受到高维特征扰动的影响,数据误差较大,因此提出一种基于深度学习的高维稀疏数据组合推荐算法。采用相空间重构方法进行高维稀疏数据的特征重构,根据重构结果结合非线性统计序列分析方法进行高维稀疏数据的回归分析和点云结构重组,在此基础上提取高维稀疏数据的组合特征量;依据特征量提取结果采用特征提取技术抽取高维稀疏数据的平均互信息特征量,并结合关联规则挖掘方法进行高维稀疏数据的主成分分析,挖掘高维稀疏数据的相似度属性类别成分,最终采用深度学习方法进行高维稀疏数据组合推荐过程中的自适应寻优,实现高维稀疏数据的组合推荐。仿真结果表明,采用该算法进行高维稀疏数据推荐的属性归类辨识性较好,特征分辨能力较强,提高了数据的检测和识别能力。 相似文献
6.
文本分类中基于对数似然比测试的特征词选择方法 总被引:9,自引:1,他引:8
本文将对数似然比测试用于文本分类中的特征词选择。与传统的频度、集中度和分散度等多种统计指标的测试独立进行的方法相比较,这种方法利用协方差矩阵协调了各个统计指标之间的联系,从而将它们有机地统一为一个整体。实验显示,这种特征词选择方法优于传统的频度测试、集中度测试和分散度测试独立进行的特征词选择的方法。 相似文献
7.
8.
刘颖 《计算机应用与软件》2001,18(11):56-59
机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。 相似文献
9.
针对统计学方法在领域概念获取时缺少词语语义信息的问题,提出了一种结合语义相似度和改进近邻传播算法的领域概念自动获取方法。该方法通过互信息进行合成词提取,使用对数似然比避免对低频词的遗漏,利用HowNet和余弦相似度识别术语间同义词,采用改进的近邻传播算法获取领域概念集合。实验结果表明,该方法在准确率、召回率和困惑度变化率上比传统的方法都有较大提高。 相似文献
10.
11.
中文文本分类中特征抽取方法的比较研究 总被引:99,自引:9,他引:99
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 相似文献
12.
定量建模一直是国际仿真领域着力探讨的一个重要课题。国际上采用的主要有所谓“拟合理论分布法”和“提取经验分布法” ,并存在激烈争论。其核心是在基于概率方法进行模型推断中 ,先验知识的合理性和有效性。文中提出随机变量X的总体分布与理论分布的定义。讨论了 χ2 -检验和K检验的特点。提出了评价 χ2 -检验有效性的测度 相似文献
13.
Bo Wu Xiaoqin Wang Huanfeng Shen Xiaocheng Zhou 《International journal of remote sensing》2013,34(17):5492-5512
This article proposes two novel feature selection methods for dimension reduction according to max–min-associated indices derived from Cramer's V-test coefficient. The proposed methods incrementally select features simultaneously satisfying the criteria of a statistically maximal association (A) between target labels and features and a minimal association (R) among selected features with respect to Cramer's V-test value. Two indices are developed by different combinations of the A and R conditions. One index is to maximize A/R and the other is to maximize A–λR, which are referred to as the MMAIQ and MMAIS methods, respectively. Since the proposed feature selection algorithms are feature filter methods, how to determine the best number of features is another important issue. This article adopts an information lost criterion by measuring the variation between χ2 and β statistics to optimize the number of features selected associated with the Gaussian maximal likelihood classifier (GMLC). To validate the proposed methods, experiments are conducted with both a hyperspectral image data set and a high spatial resolution image data set. The results demonstrate that the proposed methods can provide an effective tool for feature selection and improve classification accuracy significantly. Furthermore, the proposed methods with well-known feature selection methods, i.e. mutual information-based max-dependency criterion (mRMR) and sequential forward selection (SFS), are evaluated and compared. The experiments demonstrate that the proposed methods can offer better results in terms of kappa coefficient and overall classification accuracy measurements. 相似文献
14.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。 相似文献
15.
搭配在语言学习、辞典编撰或自然语言处理的应用中有重要价值,搭配的自动荻取是自然语言计算的基本研究领域之一.利用对数似然度、卡平方和互信息作为关联强度测度,从Penn Treebank语料库中自动获取搭配候选,以比较3种测度的不同特性.实验结果表明由于3种测度遵从不同的分布假设和倾向,抽取的搭配具有不同的分布特征. 相似文献
16.
17.
18.
19.
本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法.针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF-MI,DF-IG两种组合式特征选择方法-同时针对DF的特点提出了新的特征选取方法DFR-用KNN分类器试验了几种组合方法和DFR方法-实验结果表明DFR较DF-MI、DF-IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高. 相似文献