首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
赵书安  周木春 《电子器件》2023,46(2):463-468
为解决实际应用场景中常面临的数据标注不足的问题,提出一种基于变分主题模型的半监督文本分类模型。首先使用无监督变分主题模型挖掘出语义信息集中的文档-主题分布,作为有效的文档特征表示,再通过半监督方式训练分类器。基于神经网络的变分主题模型相较传统的主题模型,不仅可以得到合理的主题,而且推断速度更快。在20NewsGroup等数据集上的实验结果表明,所提出的模型仅使用30%的训练数据就可以取得与使用90%训练数据的半监督基线模型相当甚至更好的结果,证明了所提出模型的正确性和实用性。  相似文献   

2.
当目标领域缺少足够多的标注数据时,迁移学习利用相关源领域的标注数据,辅助提升目标域的学习性能,但是目标域与源域的数据通常不满足独立同分布,容易导致"负迁移"问题.本文在有监督主题模型(Supervised LDA,SLDA)的基础上,融合迁移学习方法提出一种共享主题知识的迁移主题模型(Transfer SLDA,Tr-...  相似文献   

3.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

4.
卓飞豹 《数字化用户》2022,(9):137-139,142
目前医院信息系统中还包括大量的非结构化数据,从中挖掘信息存在较大的难度。本研究采用ERNIE-TextCNN模型,对医学内镜报告进行文本分类。实验显示,相比单纯的ERNIE模型和TextCNN模型,ERNIE-TextCNN模型的精确率、召回率和F1分数上都有所提升,说明该模型能够有效地应用到医学文本分类领域。  相似文献   

5.
随着信息技术的发展,信息量呈几何级数增加,人们对信息资源的依赖性越来越大,如何实现信息的分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。本文主要从文本分类技术的角度阐述如何使用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。  相似文献   

6.
本文提出senLDA模型,修改LDA的吉布斯采样过程,假设文本窗口内词只由一个主题产生,短文本潜在主题与各个单元上的主题保持一致。以句内共现率较高词作为采样单位,收敛出高频共现词。传统LDA假设单个词的长度为最大窗口,因此senLDA是LDA的一个特殊情况。senLDA通过整合句子来扩展LDA,保持词汇与主题的关联并且没有依据先验知识增加额外超参数的推导,保留了传统LDA的简单性。  相似文献   

7.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

8.
卫莉莉  王煜 《电子世界》2012,(21):80-81
本文以机械领域挖掘机为主题,介绍了一种面向领域的Web文本采集与分类系统实现方法,将专业词库与特征选择相结合,逐步筛选和更新主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;采用基于内容分析的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本;根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类。  相似文献   

9.
微博由于其开放、低门槛、终端扩展、内容简洁的特征,已经成为一个信息分享、传播以及获取的大众新闻时事的重要平台,而微博中的海量文本基本都是短文本快节奏的数据,等待我们去分析其中蕴含的大量的信息。这里突出介绍了LDA主题模型和Gibbs Sampling采样算法。通过实验用LDA模型来进行主题挖掘,挖掘出来的每个主题即为该用户的兴趣和爱好。  相似文献   

10.
文档表示是排序学习的关键,目前的排序学习算法多采用词袋法表示文档与查询,该方法假设词袋中的词相互独立,忽略了词之间的关系.为了表示文档中词之间的依赖关系,本研究利用文档与查询的主题特征构建排序学习模型,我们将排序函数定义为文档与查询之间的主题关系,提出了基于有监督主题模型的排序学习算法自动学习排序函数.为了评价模型的排序精度,我们在三个标准数据集(OHSUMED,MQ2007,MQ2008)上进行了实验.实验表明基于主题的排序学习算法能够发现文档与查询之间内在的语义关联,并改善排序模型的排序精度.  相似文献   

11.
 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.  相似文献   

12.
13.
本文首先提出主题本体树层次结构的主题结构模型,并研究了基于主题本体树的层次主题检测技术。在真实新闻数据上的仿真实验表明,该方法能从文本流中有效检测层次主题,实验表明三种测度中混合对称测度效果更好。  相似文献   

14.
面向不良文本信息的中文网页分类方法   总被引:1,自引:0,他引:1  
结合Internet不良文本信息的特点,运用贝叶斯理论设计了一种面向该类信息的网页分类方法,该方法兼顾分类效率与分类精度,对特征项选取以及权重计算的方法进行了优化,降低了分类特征维数,简化了分类过程的处理.实验数据表明,该方法保持了良好的性能,提高了效率.  相似文献   

15.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

16.
基于共享背景主题的 Labeled LDA 模型   总被引:2,自引:0,他引:2       下载免费PDF全文
江雨燕  李平  王清 《电子学报》2013,41(9):1794
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。  相似文献   

17.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

18.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

19.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号