首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 172 毫秒
1.
传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent Dirichlet Allocation model-LDA-Collaborative Filtering),在传统的协同过滤算法基础上,通过LDA模型对评论文本中的主题进行分类,从各个主题层面挖掘用户的情感偏好,计算用户之间的相似度,进而向目标用户推荐商品。对京东平台牙膏的评论数据集的实验结果表明,该算法不仅可以缓解由于评分数据较少造成的稀疏性问题,推荐的精确度也有所提高。  相似文献   

2.
微博文本简短、信息量少且语法随意,传统主题分类并不理想.Labeled LDA在LDA主题模型上附加类别标签协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐式微博或主题频率相近的分类上,存在一定的模糊分配.本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐式微博、优化同频分配,采用吉布斯采样的方法求解模型.在真实数据集上的实验表明,Union Labeled LDA模型能更有效地对微博进行主题挖掘.  相似文献   

3.
随着电网运营规模的提升,电网运营的数据量也呈现出快速增长的态势。若将运营数据存放至本地服务器,则会出现交换速度慢且系统容灾能力不足的问题,还容易引起数据丢失或服务中断等现象。针对上述传统电网运营数据系统架构存在的不足,使用Hadoop分布式云存储作为电网运营数据的存放载体,并通过引入TF-IDF算法及LDA主题分类算法对该数据进行分类,旨在提升电力运营服务的质量。在运算速度测试中,搭建的Hadoop云存储系统在处理多个大文件时的速度与单台服务器相比有显著的优势。在分类算法效果测试中,文中设计的文本分类算法可将文本数据分类成不同的主题,能够更有针对性地提高运营服务水平。  相似文献   

4.
智能化管理电力资源是电网等部门的长期目标,准确地预测用电需求对基建投资、电能调度、用电安全等起着至关重要的作用。电力资源需求受多方面复杂因素影响,使得传统模型难以适应多变量或多输入预测问题,其预测准确率无法实际应用于现实用电场景。提出了一种新型多源异构化数据驱动的电量预测系统,利用电力资源、气象和人群移动等多源异构化数据集,结合深度神经网络实现高可靠性、高准确率的电力资源预测模型。设计堆栈式去噪自编码器实现多源异构数据的“电力-天气-人群”深度耦合特征提取,然后使用长短时记忆神经网络(LSTM)对所提取特征进行用电需求预测。通过现实用电场景下所采集的多源异构化数据集对预测模型进行训练,实现高精度的用电需求预测。实验结果同时也证明多源异构数据集可以更好地捕捉特定区域内用电习惯,帮助相关部门实现高效且低时延的电力资源管理与调度。  相似文献   

5.
张亮  代晓菊  郑荣  贺同泽 《电信科学》2021,37(11):86-96
电信呼叫中心客服在人工进行工单分类时存在归档耗时长、效率低、准确率难以保障的问题,但此场景下类别数量多,且类别间具有层级关联,导致传统文本分类方法准确率较低。针对此问题,提出了一种基于多模型融合的文本分类方法,根据不同层级的数据特点使用不同模型进行分类,考虑了类别的层级关联以提升准确率,并验证了此方法的有效性,可以优化客服生产系统运营流程,加快现场人工客服响应能效,提升客服热线整体运营效率,实现人工智能注智生产。  相似文献   

6.
当目标领域缺少足够多的标注数据时,迁移学习利用相关源领域的标注数据,辅助提升目标域的学习性能,但是目标域与源域的数据通常不满足独立同分布,容易导致"负迁移"问题.本文在有监督主题模型(Supervised LDA,SLDA)的基础上,融合迁移学习方法提出一种共享主题知识的迁移主题模型(Transfer SLDA,Tr-SLDA),提出Tr-SLDA-Gibbs主题采样新方法,在类别标签的约束下对不同领域文档中的词采取不同的采样策略,且无需指定主题个数.辅助源域与目标域共享潜在主题空间,Tr-SLDA通过发现潜在共享主题与不同领域类别之间的语义关联从源域迁移知识,可以有效解决"负迁移"问题.基于Tr-SLDA迁移主题模型提出Tr-SLDA-TC(Tr-SLDA Text Categorization)文本分类方法.对比实验表明,该方法可有效利用源域知识来提高目标领域的分类性能.  相似文献   

7.
彭杰  石永革  高胜保 《电信科学》2016,32(9):139-145
传统的主题挖掘模型一般仅从交互型文本中挖掘出文档主题,为了能够从中挖掘出会话主题并提高挖掘模型的普适性,提出了一种基于对话内容的交互型文本会话主题生成模型。首先通过分析交互型文本的特征,基于主题树的概念,定义了一个5层结构的对话生成树。以此为基础,再基于LDA构建会话主题生成模型(ST-LDA)。最后采用吉布斯抽样法对ST-LDA进行推导,得到会话主题及其分布概率。使用实际数据进行验证,结果表明,ST-LDA模型可以从交互型文本中有效地挖掘出会话主题。此外,成果可以降低分类算法的复杂度,回溯主题—参与者关联关系,具有较好的普适性。  相似文献   

8.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

9.
微博由于其开放、低门槛、终端扩展、内容简洁的特征,已经成为一个信息分享、传播以及获取的大众新闻时事的重要平台,而微博中的海量文本基本都是短文本快节奏的数据,等待我们去分析其中蕴含的大量的信息。这里突出介绍了LDA主题模型和Gibbs Sampling采样算法。通过实验用LDA模型来进行主题挖掘,挖掘出来的每个主题即为该用户的兴趣和爱好。  相似文献   

10.
多标签文本分类是自然语言处理中文本分类任务的一个分支。目前单标签的文本分类算法已经较为成熟,但是多标签文本分类仍是一项重要而且有挑战的任务。在多标签文本分类任务中,标签之间往往存在关联,但各类标签在样本数量上存在较为严重的不平衡问题。为此,文中提出一种利用标签之间的先验知识,在隐空间中进行数据增强的方法,缓解多标签文本分类数据不平衡造成的模型过拟合及泛化能力差的问题。所提方法可适用于不同的神经网络模型,在多个开放数据集上的实验结果表明,该方法可以有效提升多标签文本分类的性能,对少样本类别的预测性能提升显著,对于多样本类别的预测性能也可以达到很好的效果。  相似文献   

11.
基于共享背景主题的 Labeled LDA 模型   总被引:2,自引:0,他引:2       下载免费PDF全文
江雨燕  李平  王清 《电子学报》2013,41(9):1794
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。  相似文献   

12.
俞涛  郝洁  张小晖 《移动信息》2023,45(2):208-210
为减少运营商用户投诉,实现对用户投诉的事前控制,可以使用决策树算法预测用户投诉的风险度及可能投诉的风险点。通过对大数据平台中海量的管道数据以及用户接触语音、上网行为、投诉行为等数据的分析,发现投诉用户的特征值。整合投诉用户的交际圈、忍耐度、情感度、业务表象等特征,最终形成用户投诉预测复合模型,预测用户整体投诉的风险度及可能投诉的风险点。借助触点平台,将模型滚动预判信息推送到客服坐席、营业前台、代理商等各服务渠道,当用户通过上述渠道进行咨询时,接待人员可以根据平台推送的投诉预警值、用户敏感内容、容忍度、历史接触记录等信息,执行相应措施,以有效减少普通投诉和升级投诉的产生。  相似文献   

13.
针对电力行业数字化进程中出现的对于多源异构类型数据的分析效率低、概念逻辑混乱等问题,开展了基于数据融合的电力工程知识图谱架构算法研究。在收集电力行业数据和外部数据并整理相关领域专业术语的基础上,构建了电力工程知识图谱,采用CRF算法将非结构化文本信息转化为结构化信息。最终将典型相关分析(CCA)与深度神经网络相结合,利用逐层语义匹配的方法,架构出满足域私有网络和域共有网络的深度语义匹配模型。通过设置对照组进行对比测试结果表明,文中提出的多源异构数据融合模型可以有效提高不同领域实例数据的融合精度,较两种对比算法分别提高了8.32%和11.7%,具有较为理想的综合性能。  相似文献   

14.
《现代电子技术》2020,(3):173-176
传统的远程教育课程推荐方法因数据稀疏问题,造成其主题集中性较差,为此设计基于LDA用户兴趣模型的远程教育课程推荐方法。通过远程教育课程外在属性包容度和内在属性质量值,计算远程教育课程的重要度,并以重要度为依据,利用LDA用户兴趣模型判断用户对主题的偏好度,确定主题与远程教育课程的相似度系数,获得用户对远程教育课程的兴趣度,以此为基础完成远程教育课程的推荐。实验结果表明:使用基于LDA模型的推荐方法向用户推荐的课程有50%以上都是用户需求的课程,而传统的推荐方法只有不到20%,两者相比,基于LDA模型的推荐方法的主题集中性更强,更适合应用在远程教育课程推荐中。  相似文献   

15.
王广敏  王尧枫 《电信科学》2018,34(12):110-116
随着人工智能技术的发展,越来越多的公司采用机器客服代替人工客服。但若采用传统关键词模型,则机器客服准确率难以提高;若采用深度学习模型进行训练,则又面临用户问题是短文本时,模型训练和预测效果不佳的问题。针对这些问题,通过深入研究和多次试验,提出一种融合关键词模型和基于字向量的深度学习模型的算法。最后实现了模型的训练和预测,在与传统算法的准确率对比方面展现了优势。  相似文献   

16.
《现代电子技术》2019,(14):182-186
随着社交媒体和基于位置网络服务的快速发展,基于海量用户生成数据进行智能推荐成为研究热点。然而,已有工作主要面向在线产品推荐,在如何利用物理空间的多维异构数据进行推荐方面研究较少。文中以城市商业选址为背景,利用社交媒体上的用户签到数据、小区房价数据以及各种POI数据等多源城市数据,在数据预处理基础上进行多侧面商业特征和地理特征提取,提出基于随机森林的商业选址推荐方法。使用北京地区的多源城市数据建立模型,通过排序评价指标NDCG对实验结果进行评估。结果表明所提出的方法具有较好的推荐性能。  相似文献   

17.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。  相似文献   

18.
针对当前电力运营数据分析和利用不足的现状,提出一种基于文本分类与语义识别的电力运营数据智能处理算法。该算法采用剔除异常文本、分词以及去停顿词等操作进行电力运营文本清洗,再使用连续词袋(CBOW)模型实现电力运营文本的向量化表示。同时利用Apriori算法挖掘电力运营文本向量与文本分类结果的关联规则,并基于小批量梯度下降(MBGD)的长短期记忆网络(LSTM)算法来获取电力运营文本分类的结果。通过对新疆电网某历史数据的仿真分析结果表明,文中所提算法相较于LSTM与Apriori-SVM算法,在电力运营文本分类上具有更高的准确率;且与传统梯度下降法相比,MBGD算法能够在保持较高准确率的同时大幅缩减模型的训练时间。  相似文献   

19.
汪少敏  杨迪  任华 《电信科学》2018,34(12):117-124
大数据时代,文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。相对于传统的文本分类技术,深度学习技术具有准确率高、特征提取有效等诸多优势,有必要将深度学习技术引入文本分类系统,以解决传统文本分类系统存在的问题。在分析传统文本分类系统的基础上,提出了基于深度学习的文本分类系统的体系架构和关键技术,同时对传统分类模型、TextCNN、CNN+LSTM多种分类模型进行了验证比对。  相似文献   

20.
李晓旭  李睿凡  冯方向  曹洁  王小捷 《电子学报》2014,42(10):2040-2044
本文主要关注多视图数据的分类问题.考虑到集成分类方法可组合多个弱分类器构成一个强分类器,以及主题模型能学习复杂数据的语义表示,本文试图将集成学习思想引入主题模型中,以便同时学习多视图数据的分类规则和预测性语义特征.具体地,结合概率主题模型LDA模型和集成分类方法Softmax混合模型,提出了一个多视图有监督的分类模型.基于变分EM方法,推导了该模型的参数估计算法.两个真实图像数据集上的实验结果表明了提出模型有较好的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号