首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。  相似文献   

2.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

3.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

4.
传统文本分类模型在处理短文本时主题特征挖掘不够充分,导致短文本分类效果不佳.对此提出一种基于条件变分自编码的短文本分类模型.采用预训练的LDA主题模型得到的主题词项分布构造具有单通道的文本主题特征图,从采样重构过程中学习连续及高度结构化的文本主题潜在空间,引入类别标签作为条件为重构加入更多的指导.利用预训练的主题潜在空间抽取文本主题特征构造短文本分类器.实验结果表明,相比于其他文本分类方法,该模型能够利用文本主题潜在空间充分挖掘短文本主题特征,其分类精确度明显提升.  相似文献   

5.
杨天平  朱征宇 《计算机应用》2012,32(12):3335-3338
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。  相似文献   

6.
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法。首先对训练集进行强关联规则挖掘,将强关联规则加入到短文本的特征中,提高短文本特征密度,进而提高短文本分类精度。对比实验表明,该方法一定程度上减缓了短文本特征稀疏特点对分类结果的影响,提高了分类准确率、召回率和F1值。  相似文献   

7.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

8.
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。  相似文献   

9.
张群  王红军  王伦文 《计算机科学》2016,43(Z11):443-446, 450
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。  相似文献   

10.
文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。  相似文献   

11.
文章把语言值规则(模糊规则)视为语言值及其程度(隶属度)之间的一种对应关系,提出了程度函数和程度规则的概念,并由此建立了一种称为程度推理和程度控制的推理与控制方法。采用程度推理和程度控制,传统的模糊推理就变为简单的符号推演和函数计算,传统的模糊控制由数值/(语,度)转换、(语,度)变换和(语,度)/数值转换等三步来实现。  相似文献   

12.
n值(L)kasiewicz命题逻辑中命题的α-真度理论   总被引:1,自引:0,他引:1  
基于均匀概率空间的无穷乘积,在n值Lukasiewicz逻辑系统中引入命题的α-真度理论,给出了一般真度推理规则;利用命题的α-真度定义了命题间的α-相似度,进而导出命题集上的一种伪距离,使得在n值命题逻辑系统中展开近似推理成为可能。  相似文献   

13.
在条件真度的基础上,给出了计量逻辑学中二值公式真度的全概率公式和贝叶斯公式,并且在D-条件真度,蕴涵真度以及多值逻辑系统下讨论了该贝叶斯公式是否成立,得出在D-条件真度,多值逻辑系统下该贝叶斯公式仍然是成立的。  相似文献   

14.
Rough set theory, initiated by Pawlak, is a mathematical tool in dealing with inexact and incomplete information. Various types of uncertainty measure such as accuracy measure, roughness measure, etc, which aim to quantify the imprecision of a rough set caused by its boundary region, have been extensively studied in the existing literatures. However, a few of these uncertainty measures are explored from the viewpoint of formal rough set theory, which, however, help to develop a kind of graded reasoning model in the framework of rough logic. To solve such a problem, a framework of uncertainty measure for formulae in rough logic is presented in this paper. Unlike the existing literatures, we adopt an axiomatic approach to study the uncertainty measure in rough logic, concretely, we define the notion of rough truth degree by some axioms, such a notion is demonstrated to be adequate for measuring the extent to which any formula is roughly true. Then based on this fundamental notion, the notions of rough accuracy degree, roughness degree for any formula, and rough inclusion degree, rough similarity degree between any two formulae are also proposed. In addition, their properties are investigated in detail. These obtained results will be used to develop an approximate reasoning model in the framework of rough logic from the axiomatic viewpoint.  相似文献   

15.
基于已有的包含度理论,在一类特殊的粗糙逻辑代数中首次引入了元素的粗糙真度,粗糙度等概念。进一步,引入了针对两个元素的粗糙相似度及粗糙包含度的概念,详细研究了它们的性质。这些概念可用于展开带有粗糙信息特征的近似推理。  相似文献   

16.
基于均匀概率空间的无穷乘积,在n值命题逻辑系统MTLn中引入命题的?琢-真度概念,给出了一般真度推理规则;利用命题的α-真度定义了命题间的α-相似度,进而导出命题集上的一种伪距离,使得在n值命题逻辑系统MTLn中展开近似推理成为可能。  相似文献   

17.
王硕  孙光明  邹静昭  李伟生 《计算机科学》2017,44(9):250-255, 271
基于共同评分与项目全集的相似度未甄别近邻的推荐影响力,导致推荐质量低,可扩展性差。为此,提出了一种基于推荐影响度的并行协同过滤算法。该算法通过非共同评分项目、共同评分项类以及用户访问次数来计算用户推荐新颖度与兴趣重合度以度量用户推荐能力,并融入相似性计算来抑制相似度高但推荐力不强的用户,避免在项目全集上计算相似度,从而提高推荐质量;通过MapReduce并行化,使其具备良好的实时性和可扩展性。实验结果表明,该算法在海量数据集上的推荐质量更高,可扩展性更强。  相似文献   

18.
模糊控制的特征及其必须解决的课题   总被引:6,自引:0,他引:6  
韩生廉  胡国四 《控制与决策》1998,13(5):558-562,567
目前,已经实用化了模糊控制几乎是Mamdani提出的Max-Min-重心法。  相似文献   

19.
一种新的有限元网格优化方法   总被引:3,自引:0,他引:3  
本文仔细探讨了平面网格产生畸形单元的原因,并针对性地提出了“结构优化”的概念,将其与传统的“位置优化”区别开来。本文介绍的方法通过结构优化与位置优化相结合对初始有限元网格进行调整,使最终的网格最大限度地满足有限元分析的需要,从而提出了一种能够较为彻底地提高网格质量的新的网格优化方法。  相似文献   

20.
By means of infinite product of uniformly distributed probability spaces of cardinal n the concept of truth degrees of propositions in the n-valued generalized Lukasiewicz propositional logic system L n * is introduced in the present paper. It is proved that the set consisting of truth degrees of all formulas is dense in [0, 1], and a general expression of truth degrees of formulas as well as a deduction rule of truth degrees is then obtained. Moreover, similarity degrees among formulas are proposed and a pseudo-metric is defined therefrom on the set of formulas, and hence a possible framework suitable for developing approximate reasoning theory in n-valued generalized Lukasiewicz propositional logic is established.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号