首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
用从文本中提取出的n-Gram统计特性来表示文本的内容特征,采用向量空间模型进行检索。所采用的技术方法简单易行,避免了许多自然语言处理的复杂问题。由于采用示例检索,用户只需提供感兴趣的一篇文章作为输入,无需构造查询式,减轻了用户负担。  相似文献   

2.
一种新型文本自动分类系统的研究与实现   总被引:1,自引:0,他引:1  
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过对文本分类中所涉及的关键技术进行研究和探讨,提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

3.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

4.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

5.
论文介绍了文本分类技术的研究进展及发展方向.给出了中英文文本分类系统构建的一般模型和过程,分析总结了中英文文本分类过程中的异同,并介绍了针对这些异同因素常用的处理方法.  相似文献   

6.
随着信息技术的发展,信息量呈几何级数增加,人们对信息资源的依赖性越来越大,如何实现信息的分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。本文主要从文本分类技术的角度阐述如何使用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。  相似文献   

7.
卫莉莉  王煜 《电子世界》2012,(21):80-81
本文以机械领域挖掘机为主题,介绍了一种面向领域的Web文本采集与分类系统实现方法,将专业词库与特征选择相结合,逐步筛选和更新主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;采用基于内容分析的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本;根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类。  相似文献   

8.
文章介绍了中文文本分类系统的基本过程及其关键技术,比较和分析Rocchio、朴素贝叶斯(NB)、kNN三种文本分类算法的分类原理,提出了中文文本分类系统的结构模型,并给出了评估方法和实验结果,测试结果表明KNN算法的分类效果最佳。  相似文献   

9.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

10.
郭晓  蒋宗礼 《现代电子技术》2010,33(22):54-56,63
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。  相似文献   

11.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

12.
根据文字区域内集中分布着短小的水平垂直边缘,而背景区的边缘则比较粗、比较长的特征,提出一种视频文字提取方法.它使用相关熵二值化和形态学膨胀获得候选文字区,然后提取候选区域的变异直方图,根据该直方图获得精确的文字区.选用不同视频截图实验,结果表明该方法简单,具有较高的正确率、精度和鲁棒性.  相似文献   

13.
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度.  相似文献   

14.
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。  相似文献   

15.
针对多媒体搜索引擎系统中的图像检索技术,本文提出了应用图像的高层语义特征和底层颜色特征作为图像检索的综合指标,将图像文本和视觉信息融合起来,给出了一种综合语义和颜色特征的图像检索系统的体系架构.以填补多媒体底层特征和高层语义之间的差异,并在此基础上提出了相关算法,使图像检索能够满足用户的需求.提高图像检索的效率和精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号