首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

2.
为避免电子档案被恶意盗用,加强隐私防护能力,提出基于决策树自动化特征选择的电子档案资源数字化共享方法。将私钥公共属性转换为公共信息安全密钥,构建决策树自动分类信息增益节点。计算电子档案样本期望与熵值划分,提取电子档案决策树分类编码。设定解密明文组件结构,计算公共密钥解密参数,完成电子档案资源数字化共享。实验结果表明:本方法的数据转移敏感度指标低于传统方法,验证了本研究的共享方法更安全,防护性能更好。  相似文献   

3.
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。  相似文献   

4.
传统的多标签分类算法是以二值标签预测为基础的,而二值标签由于仅能指示数据是否具有相关类别,所含语义信息较少,无法充分表示标签语义信息。为充分挖掘标签空间的语义信息,提出了一种基于非负矩阵分解和稀疏表示的多标签分类算法(MLNS)。该算法结合非负矩阵分解与稀疏表示技术,将数据的二值标签转化为实值标签,从而丰富标签语义信息并提升分类效果。首先,对标签空间进行非负矩阵分解以获得标签潜在语义空间,并将标签潜在语义空间与原始特征空间结合以形成新的特征空间;然后,对此特征空间进行稀疏编码来获得样本间的全局相似关系;最后,利用该相似关系重构二值标签向量,从而实现二值标签与实值标签的转化。在5个标准多标签数据集和5个评价指标上将所提算法与MLBGM、ML2、LIFT和MLRWKNN等算法进行对比。实验结果表明,所提MLNS在多标签分类中优于对比的多标签分类算法,在50%的案例中排名第一,在76%的案例中排名前二,在全部的案例中排名前三。  相似文献   

5.
提出一种改进的数据挖掘算法。首先采用ICTCLAS系统进行文本预处理,以词频特征构建词条向量;然后融合词频特征和词频-逆向文件频率特征,构建训练样本集的特征矩阵;接着对该矩阵进行奇异值分解变换,得到语义空间,用于对文本特征向量进行语义空间变换,得到语义向量;最后构建联合支持向量机分类器,实现中文书目所对应的语义向量的自动分类。最后做了大量的仿真实验,实验结果表明,本文方法的分类准确率高于现有方法。  相似文献   

6.
针对电力档案自动分类中应用效果不佳的问题,提出基于多特征选择的电力档案自动分类方法。首先,对电力档案文本内容进行提取、分词、去停词处理,并利用向量空间模型表示电力档案本文;其次,利用多特征选择技术提取文档频率、卡方检验、归一化差异、基尼指数及信息增益多项特征;最后,根据特征确定电力档案文档与类别的相似度,通过与分类阈值对比确定电力档案类别。实验结果表明,设计方法的档案错误分类数量较少,优于传统方法,在电力档案自动分类方面拥有广阔的应用前景。  相似文献   

7.
在高光谱遥感图像监督分类过程中加入空间特征信息,可有效提高分类的速度与精度。将空间信息提取方法分水岭法与极限学习机(ELM)和支持向量机(SVM)相结合,对两种分类方法加入空间特征信息前后的分类结果进行时间与精度的综合评价与比较分析。以意大利帕维亚大学(PaviaU)ROSIS和博茨瓦纳(Botswana)奥卡瓦纳三角洲Hyperion高光谱遥感数据进行试验,首先对原始图像数据进行预处理,对不同地物类别选取适当的训练样本作为分类的参考区域,然后对各类别的光谱特征进行分析,并分别运用两种分类方法对数据集进行分类实验;之后将光谱特征与空间特征结合对数据进行分类试验。实验结果表明:在分类时间及精度方面,极限学习机(ELM)均优于支持向量机(SVM);在分类过程中引入空间特征信息,可有效提高分类精度。  相似文献   

8.
陈红初  王安霞 《计算机仿真》2021,38(12):150-154
为了快速理解图像信息,提高可视化识别分类效果,提出视差估计下VR图像几何特征数字化提取.将图像几何特征分为面积、周长、质心与延伸方向等类型,利用视差估计法获取图像相邻块间相似尺度,设定阈值,选取最佳参考视点;根据参考视点,引入高斯卷积核确定空间内核,构建尺度空间,保留图像边缘信息;定义候选点,初步划分关键点区间,针对候选点空间函数值,通过阈值比较,过滤出对比度较低的点,建立关键点集合;利用离散Gabor小波变换方法,得出Gabor变换系统数均值和方差,组成几何特征向量;结合最大能量值实现所有特征空间的向量排序,完成几何特征数字化提取.仿真结果表明,上述方法可利用较少的特征点准确提取出几何特征,更有利于图像识别分类.  相似文献   

9.
支持向量引导的字典学习算法依据大间隔分类原则,仅考虑每类编码向量边界条件建立决策超平面,未利用数据的分布信息,在一定程度上限制了模型的泛化能力.为解决该问题,提出最小类内方差支持向量引导的字典学习算法.将融合Fisher线性鉴别分析和支持向量机大间隔分类准则的最小类内方差支持向量机作为鉴别条件,在模型分类器的交替优化过程中,充分考虑编码向量的分布信息,保障同类编码向量总体一致的同时降低向量间的耦合度并修正分类矢量,从而挖掘编码向量鉴别信息,使其更好地引导字典学习以提高算法分类性能.在人脸、物体和手写数字识别数据集上的实验结果表明,在大部分样本和原子数量条件下,该算法的识别率和原子鲁棒性均优于K奇异值分解、局部特征和类标嵌入约束等经典字典学习算法.  相似文献   

10.
结合优化的文档频和PA的特征选择方法*   总被引:1,自引:0,他引:1  
特征空间的高维特点限制了分类算法的选择,影响了分类器的设计和准确度,降低了分类器的泛化能力,从而出现分类器过拟合的现象,因此需要进行特征选择以避免维数灾难。首先简单分析了几种经典特征选择方法,总结了它们的不足;然后给出了一个优化的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性;最后应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化词条的作用,消减原词条矩阵中包含的冗余模式,从而有效地降低了向量空间的维数,提高了文本分类的精度和速度。实验结果表明此种综合性特征选择方法效果良好。  相似文献   

11.
一种基于概念相似度的数据分类方法   总被引:7,自引:0,他引:7  
依据数据属性间的相似信息,提出了一种分类方法.该方法将属性矢量化,属性作为m维空间的基本矢量,数据记录作为属性矢量的和.利用属性间先验的概念相似信息,给出了求取任意属性矢量对的相似距离算法,并将数据间相关度计算转换为属性矢量及其相互投影的公式,从而得到任意两条数据的相关度;利用相关度,提出了一种分类算法.用详实的实验证明了该算法的有效性.  相似文献   

12.
对奇异性数据进行分类,可以提升检索的精度并改善用户需求。在对奇异性数据的进行分类检索时,当检索对象为海量数据时,需要对海量数据进行自动标定和划分,并对数据特征进行检测,获取数据特征集,并从中提取奇异性语义向量空间,完成奇异性数据的分类检索,而传统算法只能根据人工标定方法进行分类检索,当针对海量数据时,只能粗略的进行标定分类,分类检索时会漏掉很多奇异性特征,无法实现准确的分类检索。提出采用奇异值分解的奇异性数据分类检索方法,对海量数据进行划分,并对数据特征进行挖掘,获取数据特征集,引入奇异值分解方法提取数据特征集的奇异性数据向量空间,利用奇异值分解方法,逐级进行奇异性数据特征的相似度匹配,实现奇异性数据的分类检索。仿真结果表明,所提方法的奇异性数据匹配检索效果良好,并具有稳定的检索性能。  相似文献   

13.
传统向量空间模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。  相似文献   

14.
15.
钱俊霖  余建桥 《计算机工程》2012,38(10):266-268
针对房产电子档案分类与关键信息提取的问题,提出一种改进的特征提取与分类方法。将文档图像的段落特征和局部像素分布值特征作为房产文档图像的综合特征,利用模板训练支持向量机分类器,实现对入库的房产档案图像的自动分类。实验结果表明,该方法的分类效果和稳定性较好。  相似文献   

16.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

17.
基于改进TFIDF算法的文本分类研究   总被引:1,自引:0,他引:1  
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。  相似文献   

18.
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型一图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.  相似文献   

19.
文中展示了一种新的基于短语匹配的中文电子病历分类算法。这种方法能够充分地运用信息量更大的短语匹配而不是独立的字词匹配,并且它能够保留文档结构信息。通过用向量空间表示匹配的短语,每个病历记录被表示为一个向量,向量中每个元素表示一个短语在记录中出现的次数。所有的向量组成了病例数据集,并把它作为自组织神经网络的输入数据。实验表示,将这种方法应用在不同病种的数据集分类上具有较高的正确率,分类正确率平均值为95.417%。分类结果能够有效地辅助医务工作者诊断疾病,帮助他们总结出不同病种间以前从未发现的重要表现特征。  相似文献   

20.
小波包信息熵特征矢量光谱角高光谱影像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
目的 针对高光谱数据波段多、数据存在冗余的特点,将小波包信息熵特征引入到高光谱遥感分类中。方法 通过对光谱曲线进行小波包分解变换,定义了小波包信息熵特征矢量光谱角分类方法(WPE-SAM),基于USGS光谱库中4种矿物光谱数据的分析表明,WPE-SAM可增大类间地物的可区分性。在特征矢量空间对Salina高光谱影像进行分类计算,并讨论了小波包最佳分解层的确定,分析了WPE-SAM与光谱角制图(SAM)方法的分类精度。结果 Salina数据实例计算表明:小波包信息熵矢量能较好地描述原始光谱特征,WPE-SAM分类方法可行,总体分类精度(OA)由SAM的78.62%提高到WPE-SAM的78.66%,Kappa系数由0.769 0增加到0.769 5,平均分类精度(AA)由83.14%提高到84.18%。此外,通过Pavia数据验证了WPE-SAM分类方法具有较强的普适性。结论 小波包信息熵特征可较好地表示原始光谱波峰、波谷等特征信息,定义的小波包信息熵特征矢量光谱角分类方法(WPE-SAM)可增大类间地物可区分性,有利于分类。实验结果表明,WPE-SAM分类方法技术可行,总体精度及Kappa系数较SAM有一定的提高,且有较强的普适性。但WPE-SAM方法精度与效率有待进一步提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号