首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

2.
基于加权的向量空间检索模式   总被引:3,自引:0,他引:3  
介绍了向量空间检索模式的基本原理,并针对其不能区分每个术语(term)在文档中出现的次数的缺点,提出了一种基于加权的改进的向量空空间检索模式,很好地改进了此不足。  相似文献   

3.
向量空间模型中完全加权关联规则的挖掘   总被引:9,自引:1,他引:9  
项目加权关联规则挖掘是通过对具体项目赋予一定的权值来挖掘人们更加感兴趣的关联规则,其中具体项目的权值在数据库中是固定不变的。但现实数据库中,存在着所有项目权值会发生变化的问题。针对此类问题,文章提出新的加权关联规则模型,并提出了完全加权关联规则的挖掘算法。实验结果表明该算法是有效的。  相似文献   

4.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

5.
基于向量空间模型的多主题Web文本分类方法*   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

6.
黄剑韬 《计算机应用》2011,31(Z2):67-69
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力.  相似文献   

7.
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。  相似文献   

8.
在网络入侵检测中,数据类别不均衡训练集的使用将产生分类偏差,主要原因在于对每个训练样本的错误分类的惩罚系数是相等的.加权支持向量机对每个错误分类样本的惩罚系数是不一样的,这对小样本来说提高了分类精度,克服了常规SVM算法不能灵活处理样本的缺陷.但这是以大样本分类精度的降低以及总分类精度的下降为代价的.实验结果证明,将加权支持向量机用于网络入侵检测中是可行的、高效的.  相似文献   

9.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

10.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制.  相似文献   

11.
基于类别空间模型的文本分类系统的设计与实现   总被引:9,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

12.
基于向量空间模型的文本聚类算法   总被引:15,自引:3,他引:12  
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。  相似文献   

13.
李旻松  段琢华 《计算机应用》2011,31(9):2429-2431
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力, 通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。  相似文献   

14.
依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量机(SVM)的公安情报分类系统,该系统不仅能够实现情报文本的自动分类,而且能够保留在情报文本分类的不同阶段语料的特征信息,为情报信息的进一步加工处理提供支持,同时系统中各模块间采用松耦合的方式衔接,提高了系统的适应性和灵活性。通过实验验证了系统设计的合理性和有效性。  相似文献   

15.
基于本体的向量空间模型的压缩算法   总被引:2,自引:0,他引:2  
采用本体(Ontology)为向量空间模型提供更为丰富、详细的概念空间,在本体的支持下,文档中的术语不再被孤立地看成关键词,而是彼此间有了一定的语义联系。以已获得丰富而详细的本体为前提,考虑当本体空间很大时,解决向量空间的高维数给计算带来复杂性与难度这一问题,提出基于HCA(Hierarchical Clustering Algorithm)的向量空间压缩算法。  相似文献   

16.
分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。  相似文献   

17.
文本分类特征权重改进算法   总被引:3,自引:2,他引:1  
台德艺  王俊 《计算机工程》2010,36(9):197-199,
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

18.
文本分类特征权重改进算法   总被引:6,自引:2,他引:4  
台德艺  王俊 《计算机工程》2010,36(9):197-199
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

19.
一种快速有效的Web文档聚类方法   总被引:2,自引:0,他引:2  
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同时,依然保持高效率,其聚类性能明显优于传统Web文档聚类算法。  相似文献   

20.
基于Ajax与向量空间模型的个性化搜索引擎   总被引:1,自引:0,他引:1  
针对个性化搜索的三个关键问题:用户信息搜集,用户信息库的动态更新与个性化检索算法,探索性地提出了基于Ajax用户行为跟踪方案,以会话为单位动态更新用户行为信息库策略与加入用户文档的向量空间检索模型,在此基础上设计并实现了个性化搜索引擎实验系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号