首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
近年来,电子商务的发展很快,对电子商务的研究是热点问题,但大数据特征的电子商务文本多维度特征的数据挖掘、中文语义表述等研究和商业应用研究较少。本文以淘宝网交易数据为研究基础,利用文本数据挖掘技术从数据预处理、领域专业词库的构建以及营销决策支持信息的产生等几个方面进行了研究,提出并设计了可行的应用模型,通过该模型的实施,能够为电商企业提供相应的决策支持信息,从而为电子商务的后期研究打下基础。  相似文献   

2.
领域知识在文本聚类应用中的机遇和挑战   总被引:2,自引:1,他引:1       下载免费PDF全文
最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐述领域知识在文本聚类过程中的具体应用、研究现状和所面临的挑战。  相似文献   

3.
教育信息语义本体构建是通过语义本体构建方式去设计教育信息本体库。本体间逻辑关系表示方法,是构建出有逻辑结构的教育信息集合的过程。实现教育信息的半结构化数据归类,对不同时间采集的归类数据在规定好的模型中进行计算—词汇频度分析模型。词汇频度分析模型运用逆概率的贝叶斯思想,经过对传统贝叶斯算法与语义本体性质相结合,使MapReduce善于处理半结构化数据;经过对语义本体构建的教育信息数据结合词汇频度分析模型进行计算,获得教育信息本体的推荐能力值E i;通过对不同本体E i值进行排序,获得了推荐信息的顺序;根据推荐权重进行信息的推送工作,同时根据JS指数,经过比较基于词汇频度分析模型与目录结构推送算法的分析结果得出:词汇频度分析模型优于基于目录结构推送算法。  相似文献   

4.
K-means算法是数据挖掘中非常经典的算法。通过数据之间内在关联性将同类数据组合在一起,这对于大量混乱的数据进行资源整合具有非常重要的意义。就K-means聚类算法在文本处理领域的应用展开研究,分析在文本聚类过程中数据的处理流程,涉及文本中特征项的选取、文本的预处理操作、文本的结构化表示和文本之间相似度计算等步骤。  相似文献   

5.
网络文本挖掘方法是网络信息技术的核心.利用传统方法进行网络文本挖掘的过程中,仅仅以模式识别的思维对文本特征进行分类挖掘,以设定模糊规则的方式克服相似性干扰,但是,模糊规则设定过程需要加入大量约束条件,导致挖掘准确率降低.提出一种引入特征倾向性的网络文本挖掘方法.不再设定约束条件,而是将词汇的倾向性度量值设置合适的阀值,作为词汇权重的一部分,利用布尔加权法对词汇进行加权处理,对词汇的倾向性权重进行自适应修改,完成网络文本倾向性特征提取,利用核心词汇的语义将网络文本进行分类,实现网络文本的高效挖掘.实验结果表明,利用倾向性特征方法进行网络文本挖掘,能够提高挖掘的精度,收敛性更强,效果令人满意.  相似文献   

6.
针对推荐系统中用户评分数据稀疏所导致推荐结果不精确的问题,本文尝试将用户评分、信任关系和项目评论文本信息融合在概率矩阵分解方法中以缓解评分数据稀疏性问题.首先以共同好友数目及项目流行度改进皮尔逊用户偏好相似程度并将其作为用户间的直接信任值,然后考虑用户间信任传播过程中所有路径的影响构建新的信任网络;其次通过BERT预训练(Pre-training of Deep Bidirectional Transformers for Language Understanding)模型提取项目的评论文本向量,构造项目的评论文本特征矩阵;最后基于概率矩阵分解(Probabilistic Matrix Factorization,PMF)模型融合用户的评分数据、用户的信任关系以及项目的评论文本信息进行推荐.通过不断的理论分析并在真实的Yelp数据集上进行实验验证,均表明本文算法的有效性.  相似文献   

7.
为解决目前电网企业对于已积累的海量设备运行数据与缺陷数据的利用仍停留在设备消缺管理和简单的统计分析层面,而无法高效、准确、智能地挖掘电网企业设备缺陷文本中的重要信息,从而指导企业优化设备选型与运维检修策略制定的问题。本文选取隔离开关设备为例,以国家电网公司设备(资产)运维精益管理系统中1987-2016年共30年的台账数据及2007-2016年共10年的缺陷数据为基础,首先通过缺失值填补和数据正则化对基础数据进行数据治理,然后借助百度ECharts平台的可视化工具进行数据可视化分析,同时构建缺陷指数模型,从缺陷时间分布、缺陷类型和缺陷设备型号等方面深入挖掘了数据潜在规律和联系,最后根据分析结果对隔离开关设备选型与运维检修方面存在的问题提出合理建议及解决措施,为提高隔离开关设备管理水平提供了新思路。  相似文献   

8.
在分析应用视频数据的过程中,视频分段是分析,组织,应用视频数据的基础。由于视频数据的多样性,传统的分段方法不能给出令人满意的结果,一般需要通过人机交互来进行。文中将较为成熟的文本分析、语音处理、图像处理三种技术进行综合,互为补充,对视频流进行分割。文本分析的对象是语音转换成的文本、标题、注释等。语音处理包括语音识别和语音信号分析。语音识别将视频中的自然语言转换为文字。语音信号分析对视频材料中的语音成分进行基础分析。图像处理主要用来处理视频中的图像部分。文章阐述了视频流的分段层次,文本分析,语音处理算法以及镜头突变,镜头渐变识别算法的思想。  相似文献   

9.
传统的不均衡数据集处理方法存在人工设置特征繁琐、普适性差等缺陷,难以适用于海军军械不均衡文本数据集处理。针对此问题,本文提出一种基于biRNN模型的海军军械不均衡文本数据集处理方法。通过biRNN模型自动学习文本序列特征,以双向文本序列预测方式扩展少数类文本,达到文本数据均衡目的,并在均衡数据集的基础上将整个文本数据集进行扩充。分别对原始数据集、均衡数据集、扩充数据集进行文本分类实验,实验结果表明,基于biRNN的不均衡数据集扩展方法对原始数据集进行均衡、扩展处理能够有效提高文本分类的性能。  相似文献   

10.
针对传统模型特征提取不够全面,词向量语义表达不准确等问题,提出了结合ChineseBERT和多特征协同网络的电力设备缺陷文本分类模型。采用针对汉字优化的ChineseBERT模型提取文本向量表征,提高词向量语义表示的准确性。多特征协同网络全面捕捉缺陷文本局部和上下文语义特征。软注意力机制提升模型聚焦于关键特征的能力。在真实电力设备缺陷文本数据集开展实验,结果表明该模型分类性能优于近期表现较好的深度学习模型,F1分数高达96.82%,证明了模型的有效性。  相似文献   

11.
为提升电网设备缺陷文本的完整性、及时性、规范性,改善因缺陷数据不完整而导致缺陷管理上存在的管控模式粗放、事后管控、数据不完整、消缺不及时、缺陷分析不到位等情况,具体表现为缺陷数据存在体外循环的现象,因此提出了一种基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用。以大量的历史缺陷数据为载体,基于TF-IDF算法对庞大的历史缺陷数据进行识别,提取出属于缺陷的关键词,通过缺陷关键词筛选出属于缺陷的工作票,再运用Pair Letters similarity算法和Jaro Winkler算法将缺陷工作票与已有的缺陷数据做匹配,最终输出无法匹配的数据为缺陷体外循环数据。实验表明,本研究模型有效的提高了缺陷数据的完整性,在对缺陷数据的完整性和数据填报的及时性上有明显优势。  相似文献   

12.
针对传统信息推荐方式精度偏低的问题,引入用户画像作为推荐基础,在深入研究文本分类和用户行为后,提出一种基于动态用户画像的推荐方法.该方法通过动态分析用户历史数据,预测用户的兴趣变化趋势,从而实现动态推荐.离线实验证明,该方法在预测用户偏好变化方面具有一定优势,相较于传统的基于标签的信息推荐,提高了推荐精度.  相似文献   

13.
不断扩大的电网规模使得电力设备缺陷记录的数量不断增加,设备缺陷的准确检索是进行缺陷管理的基础和关键。对此,构建了一种基于知识图谱的电力设备缺陷检索方案,通过对现有设备缺陷记录语料的充分运用实现相应缺陷知识图谱的构建,在此基础上通过使用图搜索方法实现对设备缺陷的检索过程,算例对比结果表明相比于传统机器学习语义分析方法,检索效果更佳。  相似文献   

14.
针对火电环保领域海量的环保数据无法高度利用问题,本文采用大数据、人工智能和机器学习等信息技术,构建国家能源集团的基于大数据的火电厂智慧环保平台,结合龙源环保公司脱硫、脱硝系统方面的专业技术和优化运行模型,将海量的脱硫脱硝等环保数据全部纳入管理,对电厂开展了深层挖掘数据使用价值的研究。建设覆盖公司全管理领域和业务领域的智慧环保大数据平台,打造集数据采集、数据处理、监测管理、预测预警、优化运行、深度分析于一体的大数据中心。实现火电厂环保岛系统的智能控制和智慧管控,提升公司脱硫脱硝系统专业化服务能力和智慧化服务水平。本文以北京国电龙源环保工程有限公司为例,进行了环保数据平台建设,实现设备的全生命周期管理,帮助运维负责人员实现对企业环保资产的有效管理。  相似文献   

15.
针对电力系统,设备(资产)运维管理系统(PMS)与调度管理系统(OMS)之间的设备缺陷互联需要PMS运维人员进行主观判断及手动选择操作,导致人员工作量大幅增加且数据交互的不合理程度和不完备程度也逐渐增大,本文提出了基于标签技术和熵权法的缺陷推荐方法.该方法首先以基于正向最大匹配算法、编辑距离和规则库的标签技术对缺陷数据进行标签化标识,然后采用熵权法对其标签进行评价,进而实现向调控员进行智能化推荐缺陷的目的.实验结果表明,通过该缺陷推荐方法的实施,显著减少了运维人员的缺陷选择工作量,并提升了缺陷信息推荐的准确性.  相似文献   

16.
随着电网数据急剧增加,传统的数据挖掘和分析方法已经不能适应当前智能电网的要求,而大数据分析为此提供了相应的实现手段。首先简述了大数据技术理论,并从输变电设备状态分析及应用的具体电网业务角度出发,开展数据整合、数据存储、数据计算、数据分析和结果可视化五部分工作;然后针对输变电设备历史缺陷数据和全过程技术监督的问题数据,应用主成分分析法和聚类算法,构建变压器设备缺陷特征分析模型,实现将设备缺陷内容归类特征贴标签,为电网运检人员提供相关决策的数据分析依据;最后介绍了开展输变电设备潜伏性故障关联预测研究的工作展望。  相似文献   

17.
国网物资有限公司是服务于国家电网有限公司物力集约化管理的专业机构和总部集中招标代理平台。公司以服务物力集约化管理和电网建设为己任,充分发挥自身优势,建立了一套基于电网物资大数据的质量预警系统。该预警系统充分利用科研院所、生产厂家数据资源,通过收集、挖掘电网物资生产厂家信息、原材料市场价格、用工成本、行业合理利润、缺陷等数据,利用大数据思维,从设备生产的“人机料法环”五个环节出发,以主流供应商成本调研数据为基础,构建成本模型、质量缺陷库、平均成本数据库,并采用正态分布分析法,建立了基于一套“红黄绿灯”的预警逻辑的质量预警系统。本文以配电变压器举例说明。  相似文献   

18.
随着我国电网系统的不断发展,基层巡检作业负担越来越重,运维成本越来越高,如何实现输电线路部件缺陷的智能化检测变得愈发重要。同时,由于国家《新一代人工智能发展规划》的提出和国家电网"数字新基建"的部署,人工智能应用于电力设备运维的相关技术得到了快速发展,对输电线路部件视觉缺陷准确检测成为亟待解决的关键问题之一。早期基于图像处理和特征工程的部件视觉缺陷检测方法对图像质量的要求较高,无法真正应用于现实复杂的输电线路作业环境;随着深度学习的兴起,基于深度学习的检测模型可以有效地将部件目标及其缺陷从复杂的输电线路航拍图像中提取出来,既节省了人工设计特征的时间,又在性能上达到了显著提升,因此逐渐成为主流研究方法。本文首先描述了基于传统算法的输电线路关键部件视觉缺陷检测技术,回顾了深度学习的发展过程并分析了深度学习在缺陷检测领域的优缺点;围绕输电线路上3个重要的部件:绝缘子、金具以及螺栓,介绍了其定位与缺陷检测的研究现状;分析了输电线路部件缺陷检测中研究的样本不平衡问题、小目标检测问题、细粒度检测问题等几个关键问题;分析了符合电网巡检任务复杂场景需求和故障诊断标准的输电线路部件缺陷检测技术的未来发展趋势。  相似文献   

19.
本文主要结合浙江湖州电力业务需求,旨在打破客户对用电诉求存在的盲区,从而提高对用户用电需求的管理程度,实现热点投诉业务工单的原因挖掘。为了更好的深入挖掘投诉工单背后所蕴含的信息,研究基于自然语言处理技术出发,对电力客户投诉工单进行深入文本挖掘,利用隐马尔可夫模型等分词技术分析投诉工单中的受理内容,进行词频统计,通过TF-IDF算法计算关键词重要性权重值,提取权重值大的关键词频作为客户投诉文本挖掘的最终结果,并运用词云分析技术进行分析结果可视化展示;通过文本分类分析,构建文本分类器模型,实现对 “热点词频”在不同业务中的分布情况的研究,并根据结果开展相应改进措施。把控住当下电力客户投诉的主要问题,针对性的为不同类型的电力客户提供差异化的服务策略,从而提高客户满意度和忠诚度。专题的推广应用,能够很好的提升客服部门的工作效率,落在实处的为客户解决难题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号