首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对它的不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%,实验表明提出的LSI_LDA模型在文本分类中有更好的分类性能。  相似文献   

2.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

3.
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。  相似文献   

4.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。  相似文献   

5.
针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截取语料主要情感部分,针对不同中、英文情感词典进行情感程度关系划分以此获得不同情感程度的子数据集。在textSE-ResNeXt神经网络模型中采用了动态卷积核策略,以此对文本数据特征进行更为有效的提取,模型中融合了SEnet和ResNeXt,有效地进行了深层次文本特征的抽取和分类。将不同情感程度的子集上对textSE-ResNeXt模型采用投票集成的方法进一步提高分类效率。分别在中文酒店评论语料和六类常见英文分类数据集上进行实验。实验结果表明了本模型的有效性。  相似文献   

6.
黄晓海  郭智  黄宇 《计算机应用》2014,34(6):1626-1630
全文检索等应用要求对文本进行精细表示。针对传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,提出一种低秩稀疏文本表示模型,将文本表示分为低秩和稀疏两部分,低秩部分代表主题背景,稀疏部分则是对主题中不同方面的关键词描述。为了实现文本低秩部分和稀疏部分的分解,定义了主题矩阵,并引入鲁棒性主成分分析(PCA)方法进行矩阵分解。在新闻语料数据集上的实验结果表明,模型复杂度比隐含狄利克雷分配(LDA)模型降低了25%。在实际应用中,将模型所得的低秩部分应用于文本分类,分类所需的特征减少了28.7%,能用于特征集的降维;将稀疏部分应用于全文检索,检索结果精确度比LDA模型提高了10.8%,有助于检索结果命中率的优化。  相似文献   

7.
为解决社交媒体用户发布评论文本过长,导致情感倾向不明确,情感特征分布离散,传统情感分类模型缺乏上下文语义分析,提取情感特征不准确,分类精准率较低的难题,提出一种主题模型与词向量组合特征(LDA-Word2Vec)的情感分类模型。通过LDA主题模型对长评论文本进行特征提取,构建所有主题下的特征词库;借助特征词库构建长评论的LDA特征表达;利用CBOW训练得到特征表达后文本的词向量表示,使用TF-IDF对词向量进行加权并融合语义特征,再构建机器学习模型对长评论文本进行情感分类的方法,研究了机器学习情感分类模型。实验结果表明:相较于传统的文本特征表示方法,本文提出的LDA-Word2Vec组合特征的方法,在情感分类的准确率与召回率的表现上都更加优秀。可见本文的模型能够进一步挖掘文本的情感特征,具有一定学术意义和现实意义。  相似文献   

8.
传统文本分类模型在处理短文本时主题特征挖掘不够充分,导致短文本分类效果不佳.对此提出一种基于条件变分自编码的短文本分类模型.采用预训练的LDA主题模型得到的主题词项分布构造具有单通道的文本主题特征图,从采样重构过程中学习连续及高度结构化的文本主题潜在空间,引入类别标签作为条件为重构加入更多的指导.利用预训练的主题潜在空间抽取文本主题特征构造短文本分类器.实验结果表明,相比于其他文本分类方法,该模型能够利用文本主题潜在空间充分挖掘短文本主题特征,其分类精确度明显提升.  相似文献   

9.
对日本文学进行语料处理,有助于快速提取具有一定价值的文本信息,从而方便阅读和理解。为此,基于深度学习算法,构建了日本文学语料处理模型。首先,利用改进TF-IDF算法进行情感语料分类;其次,结合卷积神经网络与自循环思想构建自循环CNN模型,以处理不等长语料的分类问题;最后,结合卷积神经网络与双向门控循环单元处理特定主题语料分类问题。综合上述内容,构建日本文学语料处理模型。经多次实验结果显示,该模型的分类准确率超过90%,表明该模型能够有效实现日本文学的语料处理。  相似文献   

10.
基于信任机制设计了一种无须特征选择的高效的线性文本分类方法.面向特征与文档类的信任关系,使用bata概率密度函数评估特征的可靠度,提出特征对文档类的忠诚度的计算模型,基于忠诚度实现简单的线性文本分类器.采用20Newsgroup、复旦中文分类语料、SEWM2007评测语料等3个具有典型特征的单标签语料集,以朴素贝叶斯、KNN为比照算法进行了比较实验.实验结果表明,相对于传统算法,该算法分类性能显著提高,对不均匀语料和高维特征处理表现出很强的稳定性,同时算法执行速度快,适于大规模文本分类.  相似文献   

11.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

12.
针对网络不良文本信息的过滤问题提出了一种基于文本倾向性的不良文本识别方法.首先采用基于主题的文本分类方法,然后对不良主题的相关文本利用倾向性分析方法识别不良文本.基于文本倾向性由文本主题词的上下文词汇确定的假设,提出了一种基于主题词上下文的文本倾向性分类方法.实验结果显示该方法对已有基于主题分类方法很难区分的文本具有较好识别效果.  相似文献   

13.
气象文本是国家气象部门面向公众发布的气象信息,具体包括预警、预报、专报、公报、提示等类型。现有文本生产需要人工编写审核,效率不高,而全自动文本生成主要依赖模板、形式比较固定。针对这个现状,提出气象文本推荐思路并给出具体实现方法。气象文本推荐读入用户输入信息,自动推荐后续相关文本供用户选择,提升编写效率及质量。该方法分为两步:进行气象要素抽取,替换得到模板文本;基于模板文本构建邻居子句生成模型。要素抽取使用CRF序列标注模型,文本生成利用Seq2Seq模型。基于公开预警文本的实验结果表明:利用CRF进行要素抽取平均准确率超过90%,基于Seq2Seq模型的生成方法在BLEU值上达到12.2,准确率达到65%。  相似文献   

14.
15.
16.
Web文本挖掘技术研究   总被引:221,自引:1,他引:220  
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了  相似文献   

17.
Zipf's first and second laws define two striking phenomena in literary text. The two laws have applications in various fields of computer science. Recently, the study of continuous speech recognition in artificial intelligence has called for the use of statistical models of text generation. A major issue is the lack of effective and objective evaluation of the models. In this paper, four leading statistical models of text generation are evaluated with respect to Zipf's laws and we identify the Simon-Yule model as a promising approach. A significant implication of the findings for text modeling is also discussed.  相似文献   

18.
分析BP算法的缺点,并结合遗传算法和粗糙集理论构造出一种基于Rough—GA—BP的文本分类方法。该方法通过基于粗糙集理论的数据约简方法对文本输入向量进行数据约筒,通过遗传算法对BP算法初始输入进行搜索和优化。实验表明,该方法相对于传统的BP算法,节省了存储空间,缩短了算法学习时间,增加了网络的泛化能力,解决了传统BP算法容易陷入局部极小的问题,提高了分类准确率。  相似文献   

19.
基于合作模式的文本过滤模型   总被引:4,自引:0,他引:4  
文本过滤为因特网上用户提供信息服务,旨在帮助用户选择和处理自己感兴趣的文本。本文提出了基于合作模式的文本过滤模型。其基本思想是根据用户评注将用户分成若干类别,综合类别内外用户评注影响,给出了文本推荐机制,将相关文本推荐给用户。此外,利用相关反馈进行类别和参数重新调整,可以有效地改善过滤的效率。该方法不仅适用于单纯文本介质,而且还可以应用到其他非文本介质。  相似文献   

20.
文本对象查询的相关性计算   总被引:2,自引:0,他引:2  
本文把特征文件,符号对象模型及时间戳排序等概念引入到文本对象查询系统的设计之中,提出了基于索引调组集的用户查询和文本对象相关性计算,以词组标识解决词组同义词等价性判定问题以及借助于时间戳排序技术充分利用查询反馈信息以提高系统时空效率的算法和方法,并讨论了面向文本数据库管理系统的文本对象查询的优化策略及逻辑实现等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号