首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
随着移动互联网技术与O2O(offline-to-online)商业模式的发展,各类空间众包平台变得日益流行,如滴滴出行、百度外卖等空间众包平台更与人们日常生活密不可分.在空间众包研究中,任务分配问题更是其核心问题之一,该问题旨在研究如何将实时出现的空间众包任务分配给适宜的众包工人.但大部分现有研究所基于的假设过强,存在两类不足:(1)现有工作通常假设基于静态场景,即全部众包任务和众包工人的时空信息在任务分配前已完整获知.但众包任务与众包工人在实际应用中动态出现,且需实时地对其进行任务分配,因此现存研究结果在实际应用中缺乏可行性;(2)现有研究均假设仅有两类众包参与对象,即众包任务与众包工人,而忽略了第三方众包工作地点对任务分配的影响.综上所述,为弥补上述不足,本文提出了一类新型动态任务分配问题,即空间众包环境下的三类对象在线任务分配.该问题不但囊括了任务分配中的三类研究对象,即众包任务、众包工人和众包工作地点,而且关注动态环境.本文进而设计了随机阈值算法,并给出了该算法在最差情况下的竞争比分析.特别的是,本文还采用在线学习方法进一步优化了随机阈值算法,提出自适应随机阈值算法,并证明该优化策略可逼近随机阈值算法使用不同阈值所能达到的最佳效果.最终,本文通过在真实数据集和具有不同分布人造数据集上进行的大量实验验证了算法的效果与性能.  相似文献   

2.
针对有监督排序学习所需带标记训练数据集不易获得的情况,引入众包这种新型大众网络聚集模式来完成标注工作,为解决排序学习所需大量训练数据集标注工作耗时耗力的难题提供了新的思路。首先介绍了众包标注方法,着重提出两种个人分类器模型来解决众包结果质量控制问题,同时考虑标注者能力和众包任务的难度这两个影响众包质量的因素。再基于得到的训练集使用RankingSVM进行排序学习并在微软OHSUMED数据集上衡量了该方法在NDCG@n评价准则下的性能。实验结果表明该众包标注方法能够达到95%以上的正确率,所得排序模型的性能基本和RankingSVM算法持平,从而验证了众包应用于排序学习的可行性和优越性。  相似文献   

3.
李博扬  成雨蓉  王国仁  袁野  孙永佼 《软件学报》2020,31(12):3836-3851
近年来,时空众包平台正逐步走入人们的生活,并受到研究者的广泛关注.在时空众包平台中,任务分配是一个核心问题,即在满足时间和空间的条件约束下,如何为不同用户分配合适的工人来进行服务.现有的工作往往将最大化任务匹配个数或效用值之和作为研究目标,这些方法关注全局的解决方案,但是没有考虑用户和工人的偏好来提高他们对于分配的满意程度.此外,现有工作大多只考虑用户和工人两种角色,即工人移动到用户当前位置进行服务.但是,新型时空众包平台的中往往包含用户、工人和工作点三种角色,即为用户和工人分配一个工作点来进行服务.基于以上不足,三维时空稳定分配问题被提出.但是,此问题只关注了静态场景,而时空众包平台往往是在线的,即工人和用户发出的任务都是实时出现的.因此,提出了面向新型时空众包平台的三维在线稳定匹配问题和一种基础算法.通过分析基础算法的不足,结合人工智能的方法提出一种改进算法来解决这个问题.采用大量的真实数据和合成数据集来验证算法的高效性和有效性.  相似文献   

4.
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.  相似文献   

5.
针对面向空间众包平台的多工作者多任务路径规划问题,以求解时间成本和路程成本最小的全局最优路径规划方案为目标,提出了基于改进狮群进化算法的路径规划方法.首先,结合现实问题场景,提出带有任务开始点和结束点的路径规划模型;其次,借鉴狮群进化算法的思想,改进狮群智能行为,引入驱逐行为,针对求解问题设计染色体编码方式、交叉、变异操作等,提出了面向空间众包平台的多工作者多任务路径规划的改进狮群进化算法;最后,运用改进狮群进化算法求解面向空间众包平台的多工作者多任务路径规划模型,并根据真实数据集制作问题算例进行测试.实验结果表明了算法的可用性和有效性.  相似文献   

6.
任务定价是众包平台解决利润驱动的任务分配、最大化利润的重要步骤。然而关于工人期望的任务定价研究相对较少,现有大多数研究并不考虑工人与任务的动态需求。此外,出于工人隐私和传感器限制,获取完整的工人信息是困难的。为解决上述难题,提出了基于纳什竞价的空间众包任务定价算法。首先通过机器学习算法获取任务的价格范围,然后在价格区间上进行纳什竞价。为了解决动态供需造成的价格大幅波动问题,设计调整机制来稳定任务均价。最后为模拟纳什均衡点,采用了两种不同的梯度递减函数,来搜索匹配数最大的任务定价。分别在gMission数据集和合成数据集进行了实验,结果表明所提算法的匹配数量和任务均价分别是MCMF算法的60%和1.57倍,时间花费是MCMF算法的9.6%,验证了所提算法的有效性。  相似文献   

7.
在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。  相似文献   

8.
物联网蓬勃发展促使空间众包广泛应用,其任务分配主要依赖中心化平台,而中心化服务器一旦受到分布式拒绝服务攻击,众包系统将完全瘫痪.此外,在众包应用中,任务分配的合理性,高昂的平台服务费,隐私保护策略也需要同时考虑.本文提出了一种区块链环境下的空间众包任务分配模型.利用去中心化的区块链取代原有的中心化平台,构建了投标分数阈值动态变化的拍卖模型进行任务分配,同时基于密文策略的属性加密实现细粒度授权,加强任务内容的隐私保护.本文在私有链下使用真实数据集进行试验,并与现存的空间众包模型做了对比分析,实验结果表明,本文提出的模型在任务分配时总路径更短,花费成本更低,更具有合理性.  相似文献   

9.
标签比例学习(LLP)是一种将实例放入包中的机器学习方法,它只提供包中的实例信息和标签比例信息,而不提供标签信息。针对多个相关任务的LLP问题,提出了一种基于迁移学习的标签比例集成学习模型,简称AT-LLP,该模型通过在任务之间构建共享参数来连接相关任务,将源任务中学习到的知识迁移到目标任务中,从而提高目标任务的学习效率。同时该算法引入了集成学习算法,在分类器多轮迭代的学习过程中,不断调整训练集的权重系数,进一步将弱分类器训练为强分类器。实验表明,所提AT-LLP模型比现有LLP方法具有更好的性能。  相似文献   

10.
针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction, STLNC). STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集.第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系.第3阶段首先根据发现的空间结构关系设计噪声实例选择策略;然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正,并将纠正后的实例加入到干净集,再重新训练集成分类器;重复实例选择与纠正过程直到噪声集中所有的实例被纠正;最后用最后一轮训练得到的集成分类器对所有实例进行纠正.在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.  相似文献   

11.
Ranking items is an essential problem in recommendation systems. Since comparing two items is the simplest type of queries in order to measure the relevance of items, the problem of aggregating pairwise comparisons to obtain a global ranking has been widely studied. Furthermore, ranking with pairwise comparisons has recently received a lot of attention in crowdsourcing systems where binary comparative queries can be used effectively to make assessments faster for precise rankings. In order to learn a ranking based on a training set of queries and their labels obtained from annotators, machine learning algorithms are generally used to find the appropriate ranking model which describes the data set the best.In this paper, we propose a probabilistic model for learning multiple latent rankings by using pairwise comparisons. Our novel model can capture multiple hidden rankings underlying the pairwise comparisons. Based on the model, we develop an efficient inference algorithm to learn multiple latent rankings as well as an effective inference algorithm for active learning to update the model parameters in crowdsourcing systems whenever new pairwise comparisons are supplied. The performance study with synthetic and real-life data sets confirms the effectiveness of our model and inference algorithms.  相似文献   

12.
Traditional classification algorithms can be limited in their performance when a specific user is targeted. User preferences, e.g. in recommendation systems, constitute a challenge for learning algorithms. Additionally, in recent years user’s interaction through crowdsourcing has drawn significant interest, although its use in learning settings is still underused.In this work we focus on an active strategy that uses crowd-based non-expert information to appropriately tackle the problem of capturing the drift between user preferences in a recommendation system. The proposed method combines two main ideas: to apply active strategies for adaptation to each user; to implement crowdsourcing to avoid excessive user feedback. A similitude technique is put forward to optimize the choice of the more appropriate similitude-wise crowd, under the guidance of basic user feedback.The proposed active learning framework allows non-experts classification performed by crowds to be used to define the user profile, mitigating the labeling effort normally requested to the user.The framework is designed to be generic and suitable to be applied to different scenarios, whilst customizable for each specific user. A case study on humor classification scenario is used to demonstrate experimentally that the approach can improve baseline active results.  相似文献   

13.
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on ran-dom sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance, DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。  相似文献   

14.
The storage and labeling of industrial data incur significant costs during the development of defect detection algorithms. Active learning solves these problems by selecting the most informative data among the given unlabeled data. The existing active learning methods for image segmentation focus on studying natural images and medical images, with less attention given to industrial images, and little research has been performed on imbalanced data. To solve these problems, we propose an active learning framework to selecting informative data for defect segmentation under imbalanced data. In the initialization stage, the framework uses self-supervised learning to initialize the data so that the initialization data contain more defect data, thereby solving the cold-start problem. During the iterative stage, we design the main body of the active learning framework, which is composed of a segmentation learner and a reconstruction learner. These learners use supervised learning to further improve the framework’s ability to select informative data. The experimental results obtained on public and self-owned datasets show that the framework can save 70% of the required storage space and greatly reduce the cost of labeling. The intersection over union value proves that the designed framework can achieve the equivalent effect of labeling the whole dataset by labeling partial data.  相似文献   

15.
开源数据库-重症特别护理信息集MIMIC数据库包含了大量的医学数据,自它发布之日起,便得到了众多研究人员的青睐。但低效的挖掘方法很难发现内部的隐含信息,这使得MIMIC数据库得不到很好的利用,造成了资源的浪费。探索新兴的挖掘方法进行知识发现便显得异常重要。文中对围绕MIMIC数据库的各种挖掘方法进行综述,重点阐述了新出现的机器学习和深度学习方法。同时将传统统计学模型与新出现的人工智能技术包括机器学习和深度学习技术进行比较分析。结果发现相比传统的统计学模型,机器学习和深度学习技术在预测病人的早期死亡率、发现疾病影响因素等方面普遍效果更好,这有助于改善医疗质量、帮助医生进行辅助诊断,在一定程度上也减少了病人的医疗费用。  相似文献   

16.
张幸幸  朱振峰  赵亚威  赵耀 《软件学报》2022,33(10):3732-3753
随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值的信息提供了充分的空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用;接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中,前者主要涉及无监督、半监督和全监督方式,后者包括基于相似度、行列式点过程、数据重构和低秩逼近这四大类原型学习方法;最后,对原型学习的未来发展方向进行了展望.  相似文献   

17.
针对传统的人工监测心脏疾病的方法对资深医生的依赖性强,需要一定的先验知识,且其监测疾病的速度和准确性有待提高等问题,提出了一种基于堆叠分类器的心电(ECG)监测算法来用于心脏异常的判定。首先,将多种机器学习算法的优势相结合,通过叠加分类器的方式集成起来,从而弥补了单个机器学习算法学习的局限性;其次,使用合成少数过采样技术(SMOTE)对原有的数据集进行了数据扩充,使得各种疾病的数量持平从而增强数据的平衡性。通过在MIT-BIH数据集上与其他机器学习算法的结果进行比较评估,实验结果表明所提算法能够提高ECG异常监测的准确性。  相似文献   

18.
Missing value imputation with crowdsourcing is a novel method in data cleaning to capture missing values that could hardly be filled with automatic approaches. However, the time cost and overhead in crowdsourcing are high. Therefore, we have to reduce cost and guarantee the accuracy of crowdsourced imputation. To achieve the optimization goal, we present COSSET+, a crowdsourced framework optimized by knowledge base. We combine the advantages of both knowledge-based filter and crowdsourcing platform to capture missing values. Since the amount of crowd values will affect the cost of COSSET+, we aim to select partial missing values to be crowdsourced. We prove that the crowd value selection problem is an NP-hard problem and develop an approximation algorithm for this problem. Extensive experimental results demonstrate the efficiency and effectiveness of the proposed approaches.  相似文献   

19.
归纳学习是机器学习最重要、最核心也是最成熟的一个分支,但在应用归纳学习所获得的知识以及改进归纳学习算法等方面存在着很多传统方法难以解决的问题。本文从归纳学习的本质--归纳依赖于数据间的相似性出发,尝试将能够较好地定量反映数据间相似性程度的模糊理论应用到归纳学习中去,为归纳学习和机器学习找出一个新的研究方法和思路。  相似文献   

20.
王长宝  李青雯  于化龙 《计算机科学》2017,44(12):221-226, 254
针对在样本类别分布不平衡场景下,现有的主动学习算法普遍失效及训练时间过长等问题,提出采用建模速度更快的极限学习机,即ELM(Extreme Learning Machine)作为主动学习的基分类器,并以加权ELM算法用于主动学习过程的平衡控制,进而在理论上推导了其在线学习的过程,大幅降低了主动学习的时间开销,并将最终的混合算法命名为AOW-ELM算法。通过12个基准的二类不平衡数据集验证了该算法的有效性与可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号