首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 703 毫秒
1.
针对短信分类问题,提出了分类能量空间的概念,将特征词转换为分类能量空间上的一个能量元,以此为基础计算短信的能量特征向量.通过计算短信能量特征向量的领域密度,结合贝叶斯公式输出了短信在不同分类的分类概率.在分类过程中,还对分类概率差别较小的短信采用支持向量机进行了二次分类以提高分类效果.实验结果表明,该分类器模型具有良好的分类效果.  相似文献   

2.
设计并实现中文垃圾短信过滤器,能够较好识别不断变化的垃圾短信。以逻辑回归模型为基础,提出字节级n元文法提取短信特征,并采用TONE(Train On or Near Error)方法训练过滤器。通过实验测试,证明应用该方法实现的垃圾短信过滤效果很好。  相似文献   

3.
提出了一种基于免疫进化模糊聚类算法的电网抗差状态估计方法。该方法首先计算出量测数据的标准残差h和相邻采样时刻量测值之差位,初步将量测数据划分为可疑数据和可靠数据。分别在0.5~1和1~1之间随机生成可靠数据和可疑数据的隶属度,形成初始分类矩阵,克服了整个分类矩阵在0-1之间随机生成的缺陷,并大大加快了算法的收敛速度。之后以rN和△z为特征值,应用免疫进化算法对分类矩阵进行模糊聚类,以获得各个量测量的良数据隶属度。依据各个量测量的良数据隶属度,进一步将量测数据划分入淘汰区、降权区、保权区进行状态估计。该方法能获得较高的抗差能力和状态估计精度,且数值稳定性较好。对IEEE14节点系统的算例仿真表明了该方法的有效性。  相似文献   

4.
针对目前垃圾短信日益猖獗的现象,研究了一种基于内容的垃圾短信过滤策略。对训练语料进行分词和统计,计算信息增益并通过选取信息增益较大的若干特征项实现特征降维。在短信分类器的设计上,依据朴素贝叶斯算法,进行改进,减小了个别特征项对判断结果的直接影响,使得分类策略更能综合所有特征项的影响因素。实验结果表明,该方法对于手机用户能取得较好的垃圾短信过滤效果。  相似文献   

5.
针对传统平行坐标只关注原始数据特征和分布情况的缺点,在平行坐标的基础上,提出了一种多维数据的基于相关规则余弦值的分类方法.该方法通过计算多维数据属性的支持度和余弦值,然后定义贡献度,根据构建的贡献度平行坐标对该数据集进行可视化数据分析以及对未知数据进行分类,从而获取数据中潜藏的有用信息.将该方法用于分析一个Pima印第安人糖尿病数据集,结果表明:利用贡献度平行坐标图表可以清楚地看出每个属性对最终分类结果的影响程度,得到比较满意的分类效果.  相似文献   

6.
基于朴素贝叶斯和支持向量机的短信智能分析系统设计   总被引:2,自引:0,他引:2  
为了解决垃圾短信的骚扰问题,提出了一种基于朴素贝叶斯和支持向量机的短信智能分析系统架构。考虑朴素贝叶斯的快速统计分类及支持向量机的增量训练等特点,将其应用于垃圾短信过滤中,并对关键词库进行及时更新,使得系统具有更好的自适应性。对某移动通信运营商提供的12万条短信进行反复实验,结果表明:该方法可有效地解决当前垃圾短信过滤系统中存在的问题。  相似文献   

7.
论文在分析了继电器常见故障的基础上,提出了以模糊理论为基础,采用专家经验法来确定隶属度,构建导致故障征兆与故障原因间的隶属关系的模糊诊断矩阵,并根据最大隶属度原则确定导致故障产生的原因。最后以实例验证了方法的可行性和有效性。  相似文献   

8.
为高效地识别垃圾短信,在关联分类算法基础上,提出基于语序的关联分类(associative classification based on word order,ACW)算法.该算法利用关联规则挖掘方法,同时结合句法顺序,生成分类规则.通过实验证明,在短信分类领域,ACW算法的效果优于传统关联分类算法.  相似文献   

9.
矿业投资是一种风险投资,评价过程中存在很多不确定性和模糊性。采用基于熵的数据挖掘方法,通过挖掘隐藏在各指标隶属度中关于目标分类的知识信息,厘清目标分类与指标隶属度之间的关系,通过定义指标区分权清除指标隶属度中对目标分类的冗余值,提取有效值计算目标隶属度。新的隶属度转换算法经过"一有效、二可比、三合成"三个计算步骤,简记为M(1,2,3),由此构建隶属度转换新算法并用于矿业投资决策模糊评价中。实例分析表明,判定结果较为理想,具有较高的置信度。  相似文献   

10.
本文针对大型工程项目风险因素分析问题,提出了全面反映项目风险因素和风险概率分布信息的原则.基于模糊理论,对专家法确定风险概率分布的方法进行了改进.通过采用区间隶属度矩阵修正风险等级隶属度矩阵,使得采用专家法得到的项目风险概率分布更加准确反映专家判断.以京津高速铁路工程为项目研究背景,给出了利用区间隶属度矩阵对风险等级隶属度矩阵进行二次修正的演算过程,并且采用蒙特卡罗法对项目进行了在多个风险因素共同作用下的全面风险仿真分析.本文提出的方法可用于采用专家法分析的各类问题研究.  相似文献   

11.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

12.
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。  相似文献   

13.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

14.
为了解决预算单位不按照预算绩效使用财政资金的问题,提出一种基于K最近邻分类算法(KNN)的财政预算监督方法。首先利用报文得到初始结果集,然后改进传统K最近邻分类(T-KNN)算法,弱化训练集的噪声数据并对其特征值加权,最后将训练集分层得到报文分类结果。改进的K最近邻分类算法(I-KNN)使报文分类检测的真正类率(TPR)与真负类率(TNR)分别达到了89.67%和88.42%,且分类时间较短。实验结果表明,本文提出的方法为报文分类应用于预算绩效考核中提供了新思路。  相似文献   

15.
针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果.  相似文献   

16.
文本情感分析是自然语言处理的典型任务,但是现有情感分析正确率不高,其中词的特征化是一个重要原因。本文提出了一种短文本特征的组合加权方法(a Combined Weighting method for Short Text Features,CWSTF),可以有效提高情感分析正确率。CWSTF方法以随机森林为基础评估特征对于情感的贡献度并排序,进而依排序来进行特征选择。然后考虑特征在文档中的重要性TF-IDF (Term Frequency-Inverse Document Frequency),以特征在文档中的重要性和情感贡献度确定该特征的权重。最后,用支持向量SVM (Support Vector Machine)、朴素贝叶斯NB (Naive Bayes)、最大熵ME (Maximum Entropy)、K最近邻KNN (K-NearestNeighbor)等分类器进行比较实验,实验结果表明采用本文方法处理的特征,比其余方法能有效提高情感分类正确率。  相似文献   

17.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

18.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

19.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号