首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
文本自动分类系统无法直接理解其语义并进行分类,需要对文本进行预处理,提取能表达文本主题内容的关键词,将这些关键词用结构化的形式保存起来,形成文本的表示.针对文本数据中存在大量词语共现的特点,提出了一种基于上下文的文本分类方法.该方法利用词语的上下文关系定义了词语相似度和词语权值,更科学地表达了词语在该类别中的语义表示,从而更能提高文本分类的质量.实验结果表明,该方法的分类效果比传统的简单向量距离分类法有明显的改善.  相似文献   

2.
刘金岭  刘丹  周泓 《计算机工程》2012,38(10):67-69
提出一种基于知网的中文短信文本词汇链抽取方法。根据知网的语义关系,利用相同语义类给出上下文词汇项信息,构造多条词汇链,表达短信文本的多条叙事线索,从中抽取富含短信文本信息的词汇链,表达短信文本的语义信息,采用词汇链的关键词集合进行文本分类。实验结果证明,该方法的抽取准确率较高,文本分类速度较快。  相似文献   

3.
基于内容的垃圾短信过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
李辉  张琦  卢湖川 《计算机工程》2008,34(12):154-156
研究一种基于最小风险贝叶斯决策的垃圾短信过滤方法。对于以文本信息为主的短信,采用信息增益的方法进行特征选择,使用基于最小风险贝叶斯决策方法进行分类。通过自建短信语料库对该方法进行了实验。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,分类正确率达到99.3%,符合了短信分类要求。  相似文献   

4.
基于主题的中文短信文本分类研究   总被引:5,自引:3,他引:2       下载免费PDF全文
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。  相似文献   

5.
刘金岭 《计算机工程》2011,37(1):57-59,62
提出一种基于语义概念的海量中文短信文本聚类方法。该方法从短信文本出发,利用《现代汉语语义分类词典》的级类主题词,在短信文本向量集中提取概念元组,形成表示聚类结果的高层概念,基于这些高层概念进行样本划分,从而完成整个聚类过程。实验结果表明,该聚类算法有较好的聚类结果且执行效率较高。  相似文献   

6.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

7.
基于上下文关系的文本分类特征描述方法   总被引:2,自引:0,他引:2  
何中市  刘里 《计算机科学》2007,34(5):183-186
文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。  相似文献   

8.
在垃圾短信检索中所使用的关键词与短信文本集中的词不匹配,从而影响检索效果。为此,提出一种基于上下文查询词扩展的检索方法,该方法根据关键词出现的上下文信息进行查询词扩展选择,同时考虑查询扩展词与整个查询语句及查询词的位置关系。选取3 000条短信文本进行实验,结果表明该方法能提高平均查准率。  相似文献   

9.
针对网络不良文本信息的过滤问题提出了一种基于文本倾向性的不良文本识别方法.首先采用基于主题的文本分类方法,然后对不良主题的相关文本利用倾向性分析方法识别不良文本.基于文本倾向性由文本主题词的上下文词汇确定的假设,提出了一种基于主题词上下文的文本倾向性分类方法.实验结果显示该方法对已有基于主题分类方法很难区分的文本具有较好识别效果.  相似文献   

10.
基于KNN和LAS的短信文本语义分类研究   总被引:1,自引:0,他引:1  
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

11.
李锋  万小强 《计算机科学》2017,44(Z6):428-432
短信自动分类是短文本研究的热点问题。针对此问题,提出了关联强度和关联矩阵特征提取方法,并设计了基于关联矩阵的全监督学习算法。为了实现系统的自我学习,探讨了基于关联矩阵的半监督学习算法,其结合了人工矫正的主动学习算法。最后通过实例验证说明了算法的有效性。  相似文献   

12.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

13.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

14.
针对文本检索中所使用的查询词可能与文本词语不匹配而影响检索效果这一问题,提出了一种基于上下文的查询词扩展的方法,该方法根据查询词出现的上下文信息进行扩展词选择,同时考虑到查询扩展词与整个查询语句以及查询词的位置关系。实验结果表明,该方法大大提高了平均查准率。  相似文献   

15.
基于加权词向量和卷积神经网络的新闻文本分类   总被引:1,自引:0,他引:1  
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TFIDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.  相似文献   

16.
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。  相似文献   

17.
电子业务是银行中间业务的一个重要组成部分,直接关系到银行的信誉.本文根据银行业务部的短信理财系统的需求,结合现在移动梦网业务的发展,开发了短信理财系统,实现了短信理财的目标,并就系统的分析、设计和实现进行了详细的阐述.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号