首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

2.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

3.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

4.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

5.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

6.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

7.
针对在热点话题追踪过程中容易发生话题漂移的问题,提出了基于相关性反馈的自适应热点话题追踪模型。为准确把握话题的动态演变过程,首先,在词频-逆向文档频率(term frequency-inverse document frequency, TF-IDF)的基础上引入了相关度因子。其次,构造了报道与话题的相关度计算公式和新特征词能否反馈加入到话题词汇库的判别函数。同时,利用了话题词汇库本身的特性,构造了自适应更新阈值和自适应相关阈值的动态计算方法。最后,根据各个特征词对该话题贡献度的大小,对更新后的词汇库中的各特征词动态赋予新权重。实验结果显示,和其它3类追踪器相比,该追踪器模型的漏报率平均降低0.018、误报率平均降低0.063,这表明,该追踪模型更适合于解决话题漂移问题。  相似文献   

8.
为了提高文本分类的分类效果和降低分类的错误率,本文将深度学习中的压缩自动编码器逐层叠加,提出基于改进的TFIDF和堆叠的压缩自动编码器SCAE(Stack Contractive Auto-Encoder)的文本分类思想,将SCAE构成深度神经网络,无监督的训练学习文本,提高特征提取的鲁棒性,并使用反向传播算法优化网络中的参数,在计算特征词的权重时,采用本文改进的TFIDF方法。通过实验将CAE和SAE(稀疏自动编码器)进行比较,采用支持向量机(SVM)分类。实验表明,单层的CAE比单层的SAE的分类性能更好,堆叠压缩编码器学习比堆叠的稀疏编码器的分类性能同样要好。  相似文献   

9.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

10.
针对长句子引起句法分析性能下降的问题,本文提出了一种基于SVM的句子片段划分方法:先根据语法结构将句子划分为多个片段,识别出每个片段的类别;然后根据片段的类别将句子分割为几个部分,每个部分作为句法分析的基本单元;最后将句法分析之后的各个部分进行合并,形成完整的分析结果.该方法减小了句法分析的复杂度,提高了分析的准确率.  相似文献   

11.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。  相似文献   

12.
基于ActiveX Automation的Solid Edge二次开发技术   总被引:1,自引:0,他引:1  
介绍了采用ActiveX Automation技术,利用VB对Solid Edge进行二次开发的原理和方法,并对如何引用应用程序对象、文档操作、生成二维轮廓、进行特征造型等给出了实现技术和关键步骤,最后说明了Solid Edge应用程序的运行方法.  相似文献   

13.
随着国内电信行业的重组,各个企业之间的竞争越来越激烈。如何针对不同的客户制定营销策略,以使企业利润最大化,已经是非常重要的事情了。提出一种基于VSM模型,利用TFIDF算法的基本思想,构造出一种适合于电信行业的类TFIDF算法。利用此算法可以找出流失的客户去向与新入网的客户来源。通过对比客户的消费行为,可以分析出客户流失的原因,为市场部门制定营销策略提供理论依据.  相似文献   

14.
0 INTRODUCTIONFeaturerecognizingisplayinganincreasinglyim portantroleintheintegrationofCAD ,CAPPandCAM .IttakesinformationfromtherepresentationofapartandconvertsitintomachiningfeaturesthatareneededinCAPPandCAMsystemswhich generatethepart’smachining proce…  相似文献   

15.
结合工程实际特点,以绿色施工管理、环境污染、相关技术等5个一级指标,15个二级指标构建了评价指标体系,提出了基于AHP-MF评价模型。以层次分析法(AHP)用于计算各指标权重,评价采用模糊数学法。将该模型应用于某工程,结果表明该方法可行。  相似文献   

16.
CIMS下零件信息模型的研究   总被引:1,自引:0,他引:1  
零件是产品设计、制造和管理的基本单元,包含零件生命周期的信息模型是CIMS信息集成、敏捷制造和电子商务的基础,是CIMS在数据库级实现信息集成必然解决的问题,本文讨论了基于特征的包括零件生命周期信息的模型结构,进一步讨论了管理特征,技术特征,材料特征、形状特征和精度特征,以及这些特征的属性组和指针。  相似文献   

17.
为把几何模型和尺寸模型有机地结合起来实现信息集成 ,在特征造型中用约束表达零件的尺寸、公差 ;然后利用特征形素自身的尺寸模式 ,以及特征组合过程中的定位约束自动生成尺寸链 ;最后在进行尺寸分层及尺寸布置后 ,根据预先确定的标注规则生成尺寸标注信息 .  相似文献   

18.
“清淡”是盛唐山水田园诗派的主要风格特色。这一特色的形成 ,除了受着唐代经济、政治、文化诸方面因素的影响和制约外 ,还与唐代特定的社会文化心理有着内在的联系。为此 ,从文化氛围、情调心态、审美心理等主要方面分析了唐代山水田园诗清淡特色形成的心理依据 ,这对于理解盛唐山水田园诗特色是不可或缺的。  相似文献   

19.
基于B/S的实验管理系统的设计与实现   总被引:8,自引:0,他引:8  
提出了在《计算机文化基础》教学中采用Internet技术 ,建立基于Browser/Server(B/S)模式的上机实验管理系统 ;研究了系统的功能结构和体系结构 ,设计了系统由浏览器、Web服务器、应用服务器、数据库服务器组成的多层结构 ;采用了数据库技术、构件技术、数据库连接技术和特征提取、文本智能匹配以及机器自学习等方法 ,实现了这个系统  相似文献   

20.
未确知均值聚类   总被引:2,自引:0,他引:2  
利用未确知系统理论分析特征对样本分类所作贡献,定义特征的分类权重,并作为启发性知识用于确定样本与各类间的加权距离及样本属于各类的隶属度,建立未确知均值聚类算法。IRIS数据检验表明,未确知均值聚类算法误判样本数少、收敛速度快、鲁棒性好,是一种实用、有效的无监督聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号