首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值较大的特征作为最后的文本关键分类特征,实现所有文本文档的维度缩减,最后采用基于TFIDF特征权值计算方法实现KNN分类。实验结果表明,此方法能够有效地减少文本特征,降低文本向量维度,提高分类效率和分类性能。  相似文献   

2.
针对传统K最近邻(KNN)算法没有学习过程,进行分类预测时需要遍历全部学习样本、时效性差且对k值敏感的缺点,本文提出了两种带学习过程的随机KNN算法(RKNN),包括对样本Bootstrap抽样的SRKNN算法和对样本特征Bootstrap抽样的ARKNN算法,均属于Bagging集成学习,学习多个简单KNN后投票输出结果。算法对样本的特征进行组合得到组合特征,简单KNN基于组合特征得到。重点研究了如何选取特征的最优组合系数,得到了取得最好分类精度时的特征最优组合系数选取规则和公式。RKNN算法在构造简单KNN时引入学习,分类时不再遍历全部学习样本而只需要用二分查找法即可,其分类时间复杂度比传统KNN算法分类时间复杂度低一个数量级。RKNN算法的分类精度比传统KNN算法的分类精度有大幅提升,解决了使用KNN算法难以选取k值的问题。理论分析和实验结果均验证了本文RKNN算法的有效性。  相似文献   

3.
针对传统KNN算法性能受到所采用的相似度或距离度量方法影响大,且传统几何度量无法有效度量相似性的问题,提出一种采用拓扑相似度的KNN分类算法。首先将训练集与测试集中的数据集转化为单独的持久性图,利用拓扑数据分析(TDA)中的持续同调来提取隐藏在数据集中的重要拓扑特征,然后使用拓扑相似性度量Wasserstein距离对持久性图进行量化,最后再通过改进的K近邻机器学习算法对Wasserstein距离矩阵进行分类。从而实现不同于几何距离相似度或距离度量的拓扑分类算法。通过在UCI数据库进行实验,结果表明:与传统KNN分类算法相比,所提算法的平均精确率和F1值分别提高3.11%和2.62%,相比于其它4种改进的KNN分类方法,其准确率分别平均提高1.05%~5.95%,其F1值分别平均提高2.24%~5%,表明所提算法能够显著提高分类效果。  相似文献   

4.
针对LED非线性响应导致可见光通信性能严重下降的问题,提出基于粗糙集理论改进的k最近邻(KNN)算法,并与最小均方(LMS)算法相结合,设计了级联均衡器。首先,根据接收端星座点分布特征,将训练集数据空间划分为不同的区域,并对不同区域采用不同的分类策略,从而降低了传统KNN算法的计算复杂度;然后,提出将LMS均衡器与改进的KNN均衡器相结合。第1级LMS均衡器有助于降低样本点的弥散度,为提高第2级改进KNN均衡器的分类准确性和减小计算复杂度提供了条件;最后,采用蒙特卡罗方法对系统进行了仿真实验。实验结果表明,改进KNN算法的复杂度约为传统KNN算法的1/9,且不会牺牲分类准确性。同时,使用所提的LMS算法和改进KNN级联均衡器能显著改善可见光通信系统的性能。  相似文献   

5.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间.  相似文献   

6.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

7.
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上.  相似文献   

8.
为提高地理空间数据集成抽取的查准率和查全率,提出了基于机器学习的地理空间数据抽取算法。以GeoNames、OpenStreetMap等作为地理信息数据源,通过网络爬虫以及搜索引擎检索同时下载有关网页,并对内容进行过滤,过滤后对网页中的地点名称及地址信息等数据进行解析抽取,实现其可视化。分析抽取得到的地理数据实体,利用地理数据与实体之间的映射,将异构地理数据的歧义消除,实现地理空间数据一体化,并依据实体名称、类别等多特征相似程度计算,实现地理数据特征数字化。结合多特征、机器学习KNN分类法完成地理数据链接自动化,实现地理空间数据的分类抽取。通过实验对本文算法进行验证,结果表明:本文算法具有较高的查准率和查全率,数据抽取效果良好,可为地理数据集成提取奠定基础。  相似文献   

9.
采用一种属性约简算法,将待分类的数据样本进行两次约简处理--初次决策表属性约简和基于核属性值的二次约简。通过属性约简方法来删除数据集中的冗余数据,进而提高KNN算法的分类精度。在此基础上应用MapReduce并行编程模型,在Hadoop集群环境上实现并行化分类计算实验。实验结果表明,改进后的算法在集群环境下执行的效率得到很大提升,能够高效处理实验数据。实验执行的加速比也有明显提高。  相似文献   

10.
提出了一种基于SVM的博客大数据分类算法BBD-SVM,根据RSS博客文本特点提取博客特征词,通过SVM模型参数寻优化SVM分类模型实现博客大数据分类。并设计了RSS博客爬虫,以互联网上各种计算机程序设计语言的技术博客为爬取对象,利用BBD-SVM算法对相关技术博客进行专业分类,为用户学习程序设计语言提供专业推荐服务。其中,博客文本特征的提取选用改进的TF-IDF作为权重计算函数,SVM分类模型的参数寻优很好地提高了分类效率。实验结果表明,BBD-SVM算法具有准确率高,耗时少的优势,能够实现快速准确的博客推荐服务。  相似文献   

11.
从信息系统发展角度,介绍了大数据环境下信息管理研究热点问题与研究现状。大数据的应用在信息管理领域产生了巨大影响,引起社会计算、商务智能、新媒体传播、信息管理技术架构等方面的创新变化,同时也给信息管理学科的发展带来了新的机遇和挑战。  相似文献   

12.
基于大数据的网络安全与情报分析   总被引:1,自引:0,他引:1  
随着IT技术和通信技术的发展,网络环境日趋复杂,云计算和虚拟化等技术的应用,使得主机边界、网络边界也变得动态和模糊。同时,网络攻击频繁,隐蔽性、持续性、趋利性等高级网络威胁增多。而传统网络安全与情报分析技术受数据来源单一、处理能力有限、部署依赖于物理环境等因素的限制,导致对威胁情报的获取、分析、利用能力不足,且对网络安全态势的感知与预测能力有限,不能有效解决当前和未来所面临的网络安全挑战。作者以大数据技术给网络安全与情报分析研究带来的挑战与机遇为线索,回顾大数据的内涵,分析当前网络安全与情报分析面临的困境,梳理大数据和网络安全与情报分析的关系,阐述大数据技术对传统安全分析方法的改变。大数据技术在安全领域应用形成大数据安全分析这一新型安全应对方法,通过紧扣安全数据自身的特点和安全分析的目标,应用大数据分析的方法和技术,解决网络安全与情报分析中的实际问题。一方面,批量数据处理技术、流式数据处理技术、交互式数据查询技术等大数据处理技术解决了高性能网络流量的实时还原与分析、海量历史日志数据分析与快速检索、海量文本数据的实时处理与检索等网络安全与情报分析中的数据处理问题;另一方面,大数据技术应用到安全可视分析、安全事件关联、用户行为分析中,形成大数据交互式可视分析、多源事件关联分析、用户实体行为分析、网络行为分析等一系列大数据安全分析研究分支,以应对当前的网络安全挑战。大数据安全分析技术在APT攻击检测、网络异常检测、网络安全态势感知、网络威胁情报分析等方面已经得到应用,但是,当前的网络安全形势仍不容乐观:高级网络威胁与攻击的有效检测方法缺乏;未知复杂网络攻击与威胁预测能力不足;缺乏度量网络安全态势评估结果的评价体系,关键资产与网络整体的态势评估指标体系不完善,网络安全态势感知评估方法缺少针对性;网络威胁情报信息分析的新型数据源数据获取难度大,缺乏威胁情报共享标准,尚未建成规模化、一体化的现代威胁情报中心和开放的威胁情报综合服务平台。围绕这些问题,需要研究高级网络威胁发现方法、复杂网络攻击预测方法、大规模网络安全态势感知技术、威胁情报数据采集与共享技术,并在高级网络威胁早期检测、隐蔽性和持续性网络通信行为检测、基于大数据分析的网络特征提取技术、综合威胁情报的高级网络威胁预测、非公开网络情报采集等关键技术上实现突破,以提升大数据对网络信息安全的支撑能力,增强网络信息安全风险感知、预警和处置能力。  相似文献   

13.
为更加合理地实现"一带一路"能源电力投资安全,结合当前大数据环境背景以及一带一路安全情报需求,开展大数据环境下情报主导的一带一路能源电力安全管理模式研究具有重要意义。阐述了一带一路能源电力安全的定义,分析了大数据环境下能源电力安全风险的特征以及情报主导的作用,并在此基础上建立了一带一路能源电力安全体系框架和安全投资决策模型。大数据环境下情报主导的模式有助于提高能源电力投资的安全水平,降低一带一路发展过程中的变动性和适应性风险。  相似文献   

14.
针对传统的跑步运动轨迹监测系统容易受到环境影响,导致监测结果准确性差的问题,提出基于KNN算法的跑步运动轨迹监测系统设计.利用射频子模块捕捉IMX179型号摄像头拍摄到的图像,控制子模块处理图像数据,并通过PCI总线传输信息.采用上下位机模块处理轨迹信息,通过指示灯显示跟踪结果.利用KNN算法识别跑步运动姿态,构建跑步...  相似文献   

15.
基于现有监控系统在自学习能力和监控范围方面的局限,将多智能体技术引入到规模化水产养殖监控系统中,提出了一种基于多智能体协同的无线传感网络水产养殖监控系统。系统由信息采集智能体、信息汇聚智能体、环境调节智能体、现场监控智能体和远程监控智能体组成。通过多智能体间的协作,使系统的监控能力得以增强,便于适应多变的养殖环境。试验结果表明,系统能够根据养殖环境因子的变化对养殖环境进行调节,精度满足要求,能够适应规模化水产养殖环境监控的需要。  相似文献   

16.
针对零售业对大数据处理和商业智能的需求,提出一种大数据商业智能系统架构.架构包括大数据处理和商业智能应用.详细描述了系统的模块构成,数据在系统中的处理过程,介绍了一部分关于零售业数据分析的需求.基于本文提出的架构实现了一个商业智能的系统,并设计一个针对零售业提升商品销量的应用.实验结果表明,该商业智能系统可以支持零售业对于提升商品销量的决策.  相似文献   

17.
针对海洋大数据环境的数据量大和实时动态变化的特点,提出了一种基于云存储的海洋大数据迁移算法。首先,对海洋大数据进行了表示;设计了一种灰色模型的服务器负载预测算法,该算法能根据服务器历史负载信息来预测下一个时刻的负载。基于服务器的负载预测信息,提出了一种对服务器的负载进行实时迁移的数据迁移算法,通过设定最大负载阈值和最小负载阈值来实现服务器负载的均衡分配。在CloudSim环境下进行实验,实验结果表明文中方法能有效地实现海洋大数据环境的云环境的负载均衡,具有负载均衡高和负载均衡效率高的优点,与其他方法相比,具有更好的负载均衡能力。  相似文献   

18.
为解决分布式异构环境下情报资源的整合与集成,对目前流行的4种情报集成技术进行分析和比较,发现Web应用系统和组件模型———SOAP比较适合情报信息集成,具有其他模型不可比拟的良好性能.WebService/SOAP将在今后的情报信息集成方面扮演重要的角色.  相似文献   

19.
由于大数据环境下数据呈现出动态更新的特征,因此增量式属性约简已成为粗糙集理论的重点研究方向。本文针对不完备混合型有序信息系统,利用邻域优势条件熵提出一种对象更新情形下的增量式属性约简算法。首先,针对不完备混合型有序信息系统提出一种新的邻域优势粗糙集模型,同时在其基础上定义了邻域优势条件熵,并设计出一种不完备混合型有序信息系统的非增量式属性约简算法;然后,针对不完备混合型有序信息系统对象的动态性,分别研究了邻域优势条件熵随信息系统对象增加和对象减少时的增量式更新;最后,利用邻域优势条件熵作为启发式函数提出了不完备混合型有序信息系统对象增加和对象减少时属性约简的增量式更新算法。实验结果表明,所提出的增量式算法无论在属性约简结果和属性约简效率上均比非增量式算法具有更高的性能。  相似文献   

20.
复杂性是大数据区别于传统数据的根本所在,大数据的复杂性必然带来不确定性,如何高效、安全、准确地处理大数据所具有的复杂性和不确定性问题已经成为实现大数据知识发现的前提和关键。该文分析了目前大数据环境下不确定性集合理论和大数据计算与分析方法、机器学习、量子计算及量子机器学习的研究现状和不足,展望了未来的发展趋势,指出在即将来临的“大数据+人工智能+量子计算”时代,将“大数据+不确定性集合理论+机器学习+量子计算”交叉融合研究既有理论和现实意义,又有实用价值,也必将成为智慧化时代大数据领域的研究热点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号