首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于向量空模型的文本自动分类系统的研究与实现   总被引:151,自引:11,他引:140  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

2.
自动文本分类是指在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。现有的文本分类算法大都基于向量空间模型,因而不能充分表达文档的语义特征信息,从而影响了分类器性能。针对此问题,本文通过训练文档构造相似矩阵,从中获得每个类别的主题信息,由此构造分类器,最后与经典的分类器进行组合以确定文本类别。实验系统证明本文提出的分类方法较大改进了分类器性能。  相似文献   

3.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

4.
在对现有分类方法和文本倾向性分类的复杂性进行分析的基础上,提出了一种基于类别空间模型的文本倾向性分类方法。该方法采用组合特征提取方法,基于词语对类别的倾向性进行分类。实验结果表明该方法有效地提高了倾向性分类的精度和速度。  相似文献   

5.
《软件》2016,(9):118-121
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型,特征提取,机器学习方法等进行了研究和探讨。最后,本文实现了一套基于自学习向量空间模型的文本分类系统,并基于kafka消息队列和storm流计算框架,实时地为文本进行分类。  相似文献   

6.
基于类别关键词的突发事件新闻文本分类方法   总被引:2,自引:0,他引:2  
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验.实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值.  相似文献   

7.
基于正交分解的文本分类模型   总被引:2,自引:0,他引:2       下载免费PDF全文
针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量空间模型相比,新模型下分类速度有较大提高,精度也有所增加。  相似文献   

8.
基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低.针对这一不足,提出一种新的基于簇划分的文本分类方法.其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别.测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较.实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能.  相似文献   

9.
基于领域知识的专利自动分类   总被引:5,自引:1,他引:5  
根据改进的词语权重计算方法构造给定文本的特征向量,并用之从专利分类的领域知识——国际分类表IPC中直接提取类别的概念向量和待分类专利文本的特征向量,然后采用向量空间模型实现专利的自动分类,该方法不需要大量的训练样本,具有较高的分类正确率和执行速度。  相似文献   

10.
针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善,提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。  相似文献   

11.
主要研究基于无线传感器网络的多目标分类方法。传统的最优分类方法的主要问题是:其假设类别数随着最大目标数指数倍增长。本文提出了一种基于粗略的分割假设空间的次优的分类器,通过真实数据的仿真结果证明次优混合密度高斯分类方法的性能与最优分类方法相当,而运算量远小于后者。所以次优混合密度高斯分类方法在实用方面更具有吸引力。  相似文献   

12.
协同远程教学系统的子空间模型与实现   总被引:1,自引:0,他引:1  
现代远程教育模式实际上是一种计算机支持的协同工作(CSCW)模式下的应用。新一代的远程教学管理和课程发布模式,必须具有提供强大的自主学习、异步协作和实时学习的课程发布能力,具有开发放性、信息共享性、自动化支持、工作协同性、分布性、群体感知等特点。根据协同远程教学系统的基本要求。本文利用一种子空间组合模型从语义上描述了系统组要素和结构;研究了协同教学系统中用户和课程管理模型;分析了协同教学的过程模型和虚拟和虚拟教室模型;设计并实现了相应的系统结构模型。  相似文献   

13.
基于加权向量空间模型的网络搜索   总被引:5,自引:0,他引:5  
为了高效地对从Internet上获取的文档进行训练并归类,给出了一种新的分类器模型.该模型在传统的向量空间模型(VSM)中引入了关键词语的加权因子,并在训练文档过程中对文档类型特征向量进行动态优化.这在一定程度上恢复了关键词语实际应具有的权值,方便了阈值的选取,使分类更加准确和高效.实验表明,该分类器分类合理、分类准确性有明显的提高,并具有一定的学习功能.  相似文献   

14.
基于句类特征的作者写作风格分类研究   总被引:1,自引:1,他引:0       下载免费PDF全文
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。  相似文献   

15.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

16.
最小生成树数据描述( MSTCD)在刻画高维空间样本点分布时,将所有图形的边作为新增虚拟样本以提供目标类样本分布描述,这种描述存在分支多、覆盖模型复杂的问题.针对该问题,依据特征空间中同类样本分布的连续性规律,文中提出基于稀疏最小生成树覆盖模型的一类分类算法.该方法首先构建目标类数据集的稀疏k近邻图表示,通过递归图分割...  相似文献   

17.
机器人情感建模是研究情感机器人的热点问题。文中以情感心理学知识为基础,模拟具有不同个性的情感机器人在外界刺激作用下情感动态变化的过程,研究个性和外界刺激对情感转移过程的影响。采用基于状态空间的情感空间模型来描述机器人的情感状态,并用HMM过程来模拟情感状态的转移过程。但HMM过程只能求得当前情感状态的概率,为得到具体的情感状态,文中提出一种基于状态空间与概率空间映射的极大相似度匹配的情感转移模型。首先利用HMM过程计算出当前情感概率,然后通过极大相似度匹配来得到转移后具体的情感状态。通过调节模型参数来模拟不同个性和外界刺激,该模型能有效模拟情感状态变化过程。实验结果验证模型模拟的情感变化过程符合人类情感变化的一般规律。  相似文献   

18.
肤色特征是人体表面的重要特征,在人脸检测与识别、基于内容的不良图像过滤系统中有着重要的地位。分析了YUV颜色空间系统的特点,提出了一种基于椭圆区域的皮肤模型,将该模型应用于基于内容的不良图像过滤系统的皮肤检测部分中。实验表明,利用该模型进行皮肤检测能够达到很好的效果。  相似文献   

19.
谭汉松  杨盛 《微型电脑应用》2005,21(4):15-16,48
电子邮件给人们带来极大便利的同时,垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害。本文提出了一种基于向量空间模型的电子过滤系统,并对向量空间模型进行了改进,达到了较好的过滤垃及邮件的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号