首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于类别空间模型的文本分类系统的设计与实现   总被引:9,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

2.
基于语义理解的文本情感分类方法研究   总被引:1,自引:1,他引:1  
闻彬  何婷婷  罗乐  宋乐  王倩 《计算机科学》2010,37(6):261-264
文本情感分类方法在信息过滤、信息安全、信息推荐中都有广泛的应用.提出一种基于语义理解的文本情感分类方法,在情感词识别中引入了情感义原,通过赋予概念情感语义,重新定义概念的情感相似度,得到词语情感语义值.分析语义层副词的出现规律及其对文本倾向性判定的影响,实现了基于语义理解的文本情感分类.实验表明,该方法能有效地判定文本情感倾向性.  相似文献   

3.
基于领域词语本体的短文本分类   总被引:2,自引:0,他引:2  
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.  相似文献   

4.
基于概念的文本表示模型   总被引:5,自引:1,他引:4  
文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。  相似文献   

5.
文本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法,在HNC理论的领域概念框架下,通过标题信息所蕴涵的领域信息词语激活对应的HNC领域,实现文本的自动分类。实验证明,该方法与采用SVM算法进行文本分类的方法比较,测试速度和分类平均准确率明显提高。  相似文献   

6.
文本自动分类系统无法直接理解其语义并进行分类,需要对文本进行预处理,提取能表达文本主题内容的关键词,将这些关键词用结构化的形式保存起来,形成文本的表示.针对文本数据中存在大量词语共现的特点,提出了一种基于上下文的文本分类方法.该方法利用词语的上下文关系定义了词语相似度和词语权值,更科学地表达了词语在该类别中的语义表示,从而更能提高文本分类的质量.实验结果表明,该方法的分类效果比传统的简单向量距离分类法有明显的改善.  相似文献   

7.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

8.
使用概念基元特征进行自动文本分类   总被引:2,自引:0,他引:2  
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。  相似文献   

9.
基于领域本体综合考虑属性、语义距离、层次深度和调节因子等多种因素对词语相似度的影响,提出计算词语相似度的方法.实验证明,该方法充分利用了领域本体中概念的层次关系和属性特点,并把它们结合起来,利用词语之间的相似度对文本的向量空间模型进行扩展,达到了较好的文本分类效果.  相似文献   

10.
在对现有分类方法和文本倾向性分类的复杂性进行分析的基础上,提出了一种基于类别空间模型的文本倾向性分类方法。该方法采用组合特征提取方法,基于词语对类别的倾向性进行分类。实验结果表明该方法有效地提高了倾向性分类的精度和速度。  相似文献   

11.
维汉机器翻译未登录词识别研究   总被引:1,自引:1,他引:0  
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。  相似文献   

12.
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。  相似文献   

13.
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-IDF特征策略进行文本分类能够获得更高的准确度。  相似文献   

14.
面向Web信息资源的领域本体模型自动构建机制的研究   总被引:1,自引:1,他引:0  
金鑫 《计算机科学》2012,39(6):213-216
领域本体的构建是本体工程研究与应用的重要内容。面向网络Web信息资源,获取领域相关文本信息,通过对文本的概念分析,构建领域本体模型。提出一套本体自动构建机制,该本体构建基于数据挖掘和机器学习技术,内容主要包括基于贝叶斯(Bayes)分类原理;提出多个分类器方式的概念分类过程和算法;提出概念关联分析和概念自学习算法,建立本体原型;提出面向OWL本体模型的转换映射机制,构建基于OWL的本体模型。此外,还提出了从网络资源获取、领域本体建模到本体实施应用的一套完整的本体构建和应用实施的解决方案。  相似文献   

15.
提出一种适合全局运动视频中自动探测与跟踪非刚性对象的OT-GAV模型.该模型首先利用基于区域相关性的RDM算法计算相邻帧区域匹配,并结合Q学习与K-S统计法优化匹配结果,获得较为精确的区域运动向量.然后,利用前景和背景存在的运动形态差异,区域动态纹理一致性及对象运动过程中保持区域完整性的特点,逐步实现前景对象区域的探测与合并.实验证明,本模型及其相关算法可在室内和室外环境下,自动探测前景关注对象,获得其较为精确的边缘信息,并实施有效的跟踪.同时,该模型还能够解决对象跟踪过程中的"空洞"问题.  相似文献   

16.
陈建华  李陶深 《微机发展》2004,14(9):72-74,77
指纹自动识别是图像处理技术、模式识别技术与计算机数据库技术的综合应用。指纹图像的方向信息对指纹的预处理、增强、分类及匹配有着重要的作用。因此,在指纹自动识别系统中具有重要的研究价值。文中在金字塔表示法的基础上提出了一种新的指纹图像方向提取方法。该方法通过改进局部方向的估计方法、确定传递权值等方式,提高指纹图像提取方向信息的准确性。实验表明,这种方法对指纹图像噪声有很好的健壮性,且在质量较差的指纹上提取方向信息的准确性方面相对于常用的局部梯度算法来说有明显提高。  相似文献   

17.
针对视觉物体分类中视觉词汇局部线性编码缺少显著性检验和共线性分析的问题,提出了主成分线性编码方法,选择与特征点具有最强线性相关性的K近邻视觉单词,采用主成分多元线性回归方法以解决视觉单词的共线性问题,从而减小编码系数的偏差和不稳定,提高视觉物体分类的精度.依据图像量化结果的稀疏性是影响分类精度的重要因素,进一步对主成分线性编码得到的量化结果做稀疏性分析并进行能量正则化处理,提高分类效率.实验结果表明,与已有方法相比,平均分类正确率提高了1%以上.  相似文献   

18.
关键词在文本聚类/分类,自动摘要,信息检索等领域占据着重要地位,然而人工对已有的文章生成关键词的代价巨大,并且大多数已有的自动关键词提取算法都需要建立在人工标注的训练集之上。该文提出一种基于聚类的关键词提取算法,根据词语之间的语义相似性,对网页分词后的词语进行聚类,在分析词语语义联系基础上提取出反映主题的关键词。  相似文献   

19.
基于实时视觉分析算法的智能图像传感器系统设计   总被引:1,自引:0,他引:1  
设计了一种智能交通图像传感器系统以实现对监控场景的快速移动侦测和对象识别。该系统具有有线以太网和无线GPRS双重网络接入功能,硬件由基于Au1200嵌入式处理器的网络接口端和基于BlackFin 533 DSP处理器的图像分析端组成。软件系统包括运行于Au1200处理器上的基于嵌入式Linux架构的网络收发软件和运行于BlackFin 533 DSP上的视觉分析算法。本系统引入了基于区域分割的背景模型和基于特征的对象识别算法。实验结果表明该系统能够实时高效地进行自动移动检测和对象分类识别。  相似文献   

20.
网页自动分类是解决互联网信息检索困难的有效方法.虽然有很多自动分类算法和系统,但是大部分此类算法注重如何将网页准确分到某个独立的类别里面,却忽略类别之间所组成的体系结构本身也具备的一些隐藏分类信息.同时,一般的分类算法每次分类都需要搜索所有的类别.针对这些缺点,提出了一种基于结构的单路径层次化网页分类算法,该分类方法利用类别之间具有树状结构这一特点,对类别中存在父子关系的类别间进行信息传递,使得每次分类只需要搜索树中一条路径而不用遍历所有树节点.实验结果证明,这种单路径搜索技术与相关的算法相比,在减少搜索节点的同时可以提高6%的准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号