首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
《微型机与应用》2017,(22):62-65
针对文本分类领域中的迁移学习方法,提出了一种基于LDA(Latent Dirichlet Allocation)主题生成模型相似度的支持向量机(SVM)迁移学习新思路。基于此思想,提出了迁移学习算法LDA-TSVM。本算法通过对目标域的主题进行分类,依据主题分类信息熵对训练数据进行筛选,分别计算每个训练样本的权重,使得训练集与目标集有很高的相似度,从而达到迁移学习的目的。本算法不仅未引入辅助集,而且还考虑了样本本身的差异,有效地提高了源域数据集与目标域数据集的相似性。实验结果表明了新迁移算法的有效性。  相似文献   

2.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

3.
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。  相似文献   

4.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

5.
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。  相似文献   

6.
特征稀疏是对传统文本分类的一个巨大的挑战。基于LDA模型,提出一种特征扩展的短文本分类模型。该模型在正文语料的基础上加入标题语料的主题分布,并进行整合,得到每个文本的主题分布。使用SVM分类器进行分类。实验结果表明,与正文语料进行文本分类相比,所提模型对文本分类效果较好。  相似文献   

7.
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标. 针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法. 算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类. 基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率.  相似文献   

8.
传统文本分类模型在处理短文本时主题特征挖掘不够充分,导致短文本分类效果不佳.对此提出一种基于条件变分自编码的短文本分类模型.采用预训练的LDA主题模型得到的主题词项分布构造具有单通道的文本主题特征图,从采样重构过程中学习连续及高度结构化的文本主题潜在空间,引入类别标签作为条件为重构加入更多的指导.利用预训练的主题潜在空间抽取文本主题特征构造短文本分类器.实验结果表明,相比于其他文本分类方法,该模型能够利用文本主题潜在空间充分挖掘短文本主题特征,其分类精确度明显提升.  相似文献   

9.
面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算是文本分类过程的基础,一个好的特征权重算法能够明显提升文本分类的性能。本文对比了多种不同的特征权重算法,并针对前人算法的不足,提出了基于文档类密度的特征权重算法(tf-idcd)。该算法不仅包括传统的词频度量,还提出了一个新的概念,文档类密度,它通过计算类内包含特征的文档数和类内总文档数的比值来度量。最后,本文在两个中文常见数据集上对五种算法进行实验对比。实验结果显示,本文提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。  相似文献   

10.
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。  相似文献   

11.
近年来,随着大数据业务的使用,系统在运行时会产生大量的数据信息与日志文件并保存在磁盘中。由于在系统规划初期,对系统分区大小规划预期不足,很难合理规划磁盘空间,造成后期系统运行中经常出现系统分区磁盘不足的问题。当发生此类告警时,通常的分区很难动态调整大小,通常采用暂停业务,更换磁盘,数据备份与恢复的方式,该方式操作困难,程序复杂,有数据丢失的风险。在Linux系统里使用LVM(逻辑卷)技术,支持在线空间扩容,可以在用户无感知的情况下扩展系统分区容量,达到合理利用磁盘空间的目的。本文介绍了LVM技术,并在Linux系统里将分区做成逻辑卷,达到合理利用磁盘空间的目的。  相似文献   

12.
基于CAN总线实时应用的可靠调度性研究   总被引:1,自引:0,他引:1  
邓竹莎  雷航  罗淳  康涌泉 《计算机应用》2006,26(6):1301-1303
CAN总线是一种高级的串行通信协议,适用于各种分布式控制系统。在实时应用中,标准的CAN协议使用静态优先级算法,对传输信道的利用率比较低。对基于CAN总线通信的动态优先级调度算法进行研究后,提出了一种基于指数分配方式的MTS算法,在保证强实时性消息的同时兼顾了低优先级消息的公平性。  相似文献   

13.
基于HLA结构的分布交互仿真的系统设计问题   总被引:1,自引:0,他引:1  
对基于HLA/RTI结构的分布交互式多机仿真系统的体系结构、底层通信网络、运行支持系统、仿真应用对象模型和管理对象模型进行了论述,旨在为分布仿真应用系统的开发探索一条有效途径。  相似文献   

14.
心电信号是典型的强噪声下的非平稳微弱信号,减小噪声的干扰对心电信号的分析有着十分重要的意义,因此,有效的滤波方法一直是该领域学者关注的热点问题。本文在基于小波变换心电信号分析研究基础上,针对小波去噪时分解只作用于低频部分,从而忽略了高频区域中一部分有用信号的问题,提出了一种采用改进小波包理论实现心电信号去噪的方法,利用小波包在消除信号噪声方面具有更为精确的局部分析能力的特点,采用了‘db4’小波和"最优基"选择的方法,对心电信号进行消噪。以MIT-BIH心电数据库中心律失常数据仿真实验,得到了较理想的去噪效果。对比该方法与小波滤波去噪,发现基于小波包的心电信号去噪具有更优良的去噪性能。  相似文献   

15.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

16.
基于无线局域网的QoS策略研究   总被引:5,自引:0,他引:5  
本文介绍了目前关于无线局域网QoS发展的最新进展,对QoS量化管理进行了分析,在此基础上提出了基于无线局域网的QoS策略实现。  相似文献   

17.
机械制造业企业信息系统涉及多个不同的异构子系统,各子系统之间很难集成,导致系统出现信息孤岛,难以沟通协作.传统的集成方式,存在耦合度高,不易扩展等问题.在分析ESB技术的基础上,提出了基于ESB技术的集成方式,达到了松耦合,实现信息互通.  相似文献   

18.
刘磊  蒲东升  华卫红 《计算机仿真》2006,23(12):32-34,53
首先介绍了卫星工具包软件STK的特点,详细描述了基于高层体系结构HLA这一仿真协议下的卫星光学测量仿真系统的设计和开发的过程,结合系统的开发要求分析了对卫星过境时光学测量的约束条件,具体描述了卫星光学测量仿真系统的功能及其设计过程,并进行了对象类和交互类设计开发,对于仿真中涉及的成员同步问题进行了分析,最后结合对卫星工具包软件STK的接口成员开发具体介绍了通过应用国防科大自主开发的KD—RTI系列联邦成员开发工具来实现联邦成员的过程。  相似文献   

19.
基于数据仓库的数据采掘技术应用   总被引:10,自引:0,他引:10  
本文首先分析了基于数据仓库的数据采掘的主要方法,技术和应用,然后通过实例讨论了数据采掘在股票分析与决策系统中的应用。  相似文献   

20.
地理信息系统与数据库结合研究   总被引:17,自引:0,他引:17       下载免费PDF全文
鉴于地理信息系统需要对外提供灵活高效的地理信息访问途径,因此采用数据库管理地理信息是发展趋势,目前存在关系型,对象-关系型,面向对象型3类数据库产品,在讨论它们与地理信息系统结合可行性的基础上,重点介绍了纯关系模型,空间扩展模型,包装模型3种结合方案,还通过对这3种方案实现原理的分析及其优缺点的比较,指出了各方面的应用前景,并由此归纳出,在GIS与数据库结合中需要注意的问题及解决这些问题的关键技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号