首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着互联网时代的数据爆炸,在短文本信息数量迅速增长的环境下,为了更好地进行中文本摘要模型的计算,本文针对短文本的文本特征提取和相似度计算进行了深入研究。本文将优化的TF-IDF模型和Word2Vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权Word2Vec和TF-IDF的文本特征提取算法,将文本进行向量化表示;随后,在文本的相似度算法中,基于短文本的特征,选取了余弦相似度算法,对短文本间相似度值进行了有效计算。实验结果表明,使用TF-IDF和Word2Vec结合模型与传统单个模型相比,生成出的文摘准确性更高,质量更好。  相似文献   

2.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文...  相似文献   

3.
互联网在全球的普及和应用的不断发展,推动了数据挖掘和知识发现技术,而文本分类作为处理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和热点.由于贝叶斯方法具有运行快速、易于实现的特点,它被广泛应用于各种文本分类及信息检索系统.本文着重研究和分析了几个不同的特征选择方法,将贝叶斯的文本分类方法和改进了的特征选择方法结合起来实现了训练算法、特征选择算法和分类算法.  相似文献   

4.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2].  相似文献   

5.
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。  相似文献   

6.
为有效地分析患者对医院的评价,本文提出利用机器学习算法对文本的情感进行分析,该算法利用TF-IDF(term frequency–inverse document frequency)提取文本特征向量,利用朴素贝叶斯分类器(Naive Bayes classifi er)对信息进行分类,确定评价的情感极性.实验表明,利...  相似文献   

7.
李志强  王玉玫 《信息技术》2022,(1):80-83,89
文中研究对于中文的新闻文本分类过程中如何进行文本特征提取的问题.新闻文本数据是嵌在各种网页中的,因为其句子较长,来源广泛,内容驳杂的特点,传统特征提取方法不能达到很好的效果.文中提出一种新的分类能力指数用于特征选择,并对TF-IDF算法做出改进用于加权计算.经实验验证,文中改进算法比原特征选择、权重计算算法有更高的准确...  相似文献   

8.
震后快速确定地震影响场的分布对地震应急救援工作部署具有非常重要的意义。近年来信息技术的快速发展,微博新闻评论等信息随着地震发生海量增长,也包括很多灾情位置信息,为快速绘制地震影响场提供了可能。但是以上信息存在震感信息量较少、位置信息不精确、文本篇幅短、表述口语化、语义模糊等问题。为了解决以上问题,首先采用震感信息关键词在爬取微博数据时进行筛选,并使用二分类算法提取震感信息。然后采取命名实体识别技术,将震感信息中的地理位置信息进行精准识别。最后选用CNN算法对短文本数据进行分析,使用BIGRU算法解决表述口语化的问题,采用ALBERT模型对语义模糊的文本进行分析,提出一种ALBERT+BIGRU+CNN短文本分类模型,充分提取震感信息的语义特征,结合《中国地震烈度表》作为分类标准,快速准确获取地震影响场数据,并采用Vue+SpringBoot技术构建可视化平台将其绘制到三维地图中,为震后应急救援提供辅助参考。  相似文献   

9.
王丁  运海红  张辉 《信息技术》2005,29(3):64-65
利用贝叶斯算法,通过对训练文本的学习,构建了一个文本分类器,从而实现了本文提出的自动分类的目标。贝叶斯分类算法是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量。文本的分类是选择最有可能生成该文本的类。只有建立了知识库,分类进行训练,才可以构造相应的分类器,对相关的文本进行分类。  相似文献   

10.
《现代电子技术》2019,(17):183-186
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF-IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。  相似文献   

11.
近些年来突发事件的频发使得人们对该领域的关注越来越多,因此对突发事件进行自动分类的研究,以提高文本分类的效率。在构建突发事件领域专用停用词表的基础上,基于TF-IDF(term frequency–inverse document frequency)特征提取方法和支持向量机文本分类算法,对上海大学突发事件语料库中的332篇文本进行分类。由算法得出的训练模型可以较好地完成突发事件的文本分类任务,由此更为快速和精确的获取到目标文本,减少人工的工作量。  相似文献   

12.
从读者的角度对文本情感进行分类.训练样本集以新闻文章作为样本实例,以文章后读者的投票信息作为样本类别标注的先验知识.针对该不完备的数据集提出了一种半监督学习的分类模型,分类方法采用朴素贝叶斯分类法和EM算法相结合.实验证明该方法不仅简单有效,而且具有较高的分类性能.  相似文献   

13.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

14.
随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。  相似文献   

15.
随着深度学习技术在自然语言处理领域的广泛应用,短文本情感分类技术得到显著发展。该文提出了一种融合TextCNN-BiGRU的多因子权重文本情感分类算法。算法通过引入词语情感类别分布、情感倾向以及情感强度三个关键因子改进了词语的向量表示。将基于词向量表示的短文本分别作为TextCNN和BiGRU模型的输入,提取文本关键局部特征以及文本上下文的全局特征,将两种特征进行线性融合,实现中文短文本的情感分类。在公开的两个情感分类数据集上验证了多因子权重向量表示方法和融合TextCNN-BiGRU的情感分类模型的有效性,实验结果表明,文中提出的算法较单一模型在短文本情感分类准确率上提高了2%。  相似文献   

16.
基于粗糙集理论色情信息过滤研究与实现   总被引:2,自引:0,他引:2  
把粗糙集理论运用到互联网上色情信息的监控,通过对特征项的属性约简和值约简,大大降低了信息的冗余度,提高了分类的效率和准确率。最后应用简单向量距离分类算法和贝叶斯算法实现对色情文本信息的过滤,并进行试验。  相似文献   

17.
针对机场场面监视雷达中的目标分类问题,提出了基于隶属度和贝叶斯推理的机场目标分类算法。首先通过训练样本的学习得到各特征值的均值和均方差,利用柯西分布函数计算测量值的隶属度;然后采用贝叶斯分类方法得到测量值的概率向量,最后采用加权平均型综合评判函数得到目标分类。实验表明,该分类算法能够准确地对机场各类目标进行分类识别,对先验知识的要求较低,并且通过使用当前分类概率的方法能够在分类过程中不断提高分类识别的准确率。  相似文献   

18.
《无线电工程》2019,(12):1031-1036
国内对转基因作物的监管非常严格,但是对转基因作物的检测缺乏快速准确的计量方法。太赫兹时域光谱结合机器学习分类算法可以实现对转基因作物快速有效地检测识别。通过太赫兹时域光谱技术提取了2种转基因油菜种子和一种非转基因油菜种子的太赫兹吸收谱,朴素贝叶斯算法、基于朴素贝叶斯的自适应提升算法、主成分分析结合随机森林算法、主成分分析结合支持向量计算法被应用于转基因油菜种子的太赫兹吸收谱的分类识别。通过实验对比,基于朴素贝叶斯的自适应提升算法获得了高达96.6%的检测准确率。该研究为运用太赫兹光谱技术手段开展转基因作物的快速检测提供方法参考。  相似文献   

19.
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.  相似文献   

20.
说话人识别技术广泛地被应用于互联网和通信领域,近几年,压缩感知理论受到国内外的广泛关注,该理论突破了奈奎斯特采样速率的限制,对可压缩信号在采样的同时也进行压缩,将压缩感知这一新理论与说话人识别这一亟需突破的领域相结合,为说话人识别系统性能的提升带来希望。本文针对与文本无关的说话人识别技术,深入研究了贝叶斯框架下的压缩感知算法,率先提出了基于贝叶斯压缩感知的说话人识别算法;然后针对基于压缩感知的说话人识别算法中的稀疏系数的特点,引入半高斯先验,详细分析基于该先验的贝叶斯压缩感知后,提出基于近似贝叶斯压缩感知的说话人识别算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号