共查询到20条相似文献,搜索用时 15 毫秒
1.
人工智能燃料机回想一下你的小时候,是如何学习认识苹果的?只需要有人拿一个苹果在你面前展示一遍,告诉你这是苹果,你就能举一反三,认识不同形态,不同颜色的苹果。这是人类特有的学习能力。但是,如何教机器识别苹果呢?我们要教它认识一个苹果,直接给它一张苹果的照片,它是完全不知道这是什么东西的。我们必须先给它学习大量苹果的图片,通过学习各种颜色、各种大小、各种形状、各种成熟程度和各种光线明亮程度下的苹果,掌握大量的图片中的特征,这时候再给机器任意一张苹果的图片,它才能认出来这是苹果。 相似文献
2.
数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望. 相似文献
3.
4.
5.
标注是个人数据空间中对非结构化数据进行管理与维护的重要手段。标注技术如何与网络环境中个人信息管理模型有机结合,是数据管理与共享的前提。本文提出一种分布式个人信息管理系统架构,支持网络环境中个人数据空间的内容管理及共享;在此基础上,定义了个人信息标注的数据模型与操作模型,支持数据项粒度的多种管理服务,并通过原型系统的实现验证了上述研究中的关键技术。 相似文献
6.
用数据采掘方法获取汉语词性标注规则 总被引:8,自引:0,他引:8
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。 相似文献
7.
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。 相似文献
8.
分布不均衡的数据在通过传统聚类分析的方式进行标注时,聚类效果容易偏向于样本数多的类,从而造成标注出现误差的问题。针对此问题提出改进的含有均衡约束聚类算法的标注方法,对不均衡数据的聚类标注准确率实现了比较有效的提高,方法包含数据初始聚类、专家知识调整,数据均衡化处理,含均衡约束聚类等步骤。通过初始聚类对不均衡数据进行初始类标签分配,专家知识调整对部分数据错误标注进行标签调整修改,对数据进行均衡化处理得到均衡数据集,通过均衡约束聚类对均衡数据进行标签最终精确分配。经仿真验证表明,上述方法比较有效的提高了不均衡数据标注准确率。 相似文献
9.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。 相似文献
10.
扬尘治理是大气污染防治的核心问题,已引起社会的广泛关注。山东省德州市立足于经济与社会需求,基于现有共享数据平台,利用大数据、人工智能(ArtificialIntelligence,AI)等技术开发了扬尘防治监管系统。该系统包括扬尘“一张图”、任务调度以及决策支持与综合分析4大功能模块。运用地理信息系统(GeographicInformation System,GIS)技术汇集各类资源,实现数据大屏可视化,便于整体联动监管;使用AI技术实现扬尘问题自动化检测;运用大数据技术整合多级资源,深入分析研判,综合评估治理效果。利用该系统有效提升了扬尘治理的效率与效果,能够实现资源整合、智慧赋能、压实责任及统一管理。 相似文献
11.
12.
数据标注是对未处理的初级数据,包括文本、图像、视频等非结构化数据进行打标签处理,并转换为人工智能可识别的过程。在信息化时代军事舆情领域的数据资源迎来爆发式增长的背景下,数据标注在实现数据标准化与快速准确检索目标数据的场景中扮演着极其重要的角色。为了能够帮助使用人员大幅度提高军事舆情数据的检索与分析效率,主要研究了基于机器学习与深度学习的智能标注技术,对智能标注系统做了流程设计和功能模块架构设计,包括通过Python算子训练实现标注算法模型化、Kubernetes容器编排实现标注算法服务容器化,设计实现了一套以工作流为执行单元、以分发各阶段任务为推动模式的智能标注系统。 相似文献
13.
概述了大数据和人工智能(Artificial Intelligence,AI)的基本概念,详细探讨了其在网络技术中的优势,如大数据时代下人工智能改进了神经网络功能、提高了信息安全管理水平。最后提出了一系列应用策略,包括构建智能防火墙以及增强问题解决能力等。分析了大数据时代下AI在计算机网络技术中的潜力,为未来的研究提供了启示。 相似文献
14.
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27 000个对话问题以及超过82 000个对话问题的回复。为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是: 极差的、较差的、一般的、较好的、极好的。为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型。实验结果表明,该数据集对于提升对话回复选择的质量有显著效果。 相似文献
15.
人体特征自有奥妙所在,其所固有的不可复制的唯一性使得由此生成的生物密钥无法被失窃或遗忘,科技便是赋予这一奥妙以现实想象和落地执行的最佳工具。道在日新,新者生机也。生物识别走向多模态生物特征的识别推动机器走向自动探测、捕获、处理、分析数字化生理或行为信号的高级智能。 相似文献
16.
自动图像标注是一个包含众多标签、多样特征的富有挑战性的研究问题,是新一代图像检索与图像理解的关键步骤.针对传统基于浅层机器学习标注算法标注效率低下、难以处理复杂分类任务的问题,本文提出了基于栈式自动编码器(SAE)的自动图像标注算法,提升了标注效率和标注效果.全文主要针对图像标注数据不平衡问题,提出两种解决思路:对于标注模型,我们提出一种增强训练中低频标签的平衡栈式自动编码器(B-SAE),较好地改善了中低频标签的标注效果.并在此模型基础上提出一种分组强化训练B-SAE子模型的鲁棒平衡栈式自动编码器算法(RB-SAE),提升了标注的稳定性,从而保证模型本身具有较强地处理不平衡数据的能力;对于标注过程,我们以未知图像作为出发点,首先构造未知图像的局部均衡数据集,并判定该图像的高低频属性来决定不同的标注过程,局部语义传播算法(SP)标注中低频图像,RB-SAE算法标注高频图像,形成属性判别的标注框架(ADA),保证了标注过程具有较强地应对不平衡数据的能力,从而提升整体图像标注效果.通过在三个公共数据集上进行实验验证,结果表明,本文方法在许多指标上相比以往方法均有较大提高. 相似文献
17.
为了有效的组织、查询和浏览海量的图像类装备保障数据,分析了现有图模型图像语义标注方法的弊端,选取了装备IETM内的图像类装备保障数据信息作为图像语义标注的样本数据,并结合TF*IDF权值理论,改进了图模型语义标注方法的语义标注词选定方法,构建了基于装备IETM的图像类装备保障数据语义标注模型。实验结果表明,所提出的图像类装备保障数据语义标注模型及算法能够有效地提升图像数据信息查询的查准率与查全率,能够在一定程度上满足用户对图像类装备保障数据语义标注的需求。 相似文献
18.
垃圾分类是现代城市管理的重要问题之一,为了解决日益增多的生活垃圾带来的难题,提出了一种基于图像识别的智能垃圾分类系统。该系统结合最新的垃圾分类标准规范,利用百度人工智能(Artificial Intelligence,AI)框架和人工智能图像识别技术,与数据库中的数据进行对比,能够快速、准确地识别和分类垃圾。同时,通过在设计系统中加入腾讯地图的定位系统,帮助用户查询附近的垃圾回收站点和定位。该平台的搭建对提高用户的垃圾分类识别的准确性具有积极意义,对于城市管理和环境保护方面具有重要的现实意义,进一步推动了垃圾分类的发展。 相似文献
19.
为了获得充足的训练语料,提出了半监督的K-means算法(SSK-means),算法的运行过程中不再随机选择初始中心点,而是先从各类标注数据分别选取一个作为初始中心点,其余的则从未标注数据中选择,选择距离已选初始点较远的数据,这就保证初始点不会属于同一类,从而使得标注的结果具有较高的准确率.实验结果表明,SSK-means算法是有效的,它具有较好的性能. 相似文献
20.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础. 相似文献