邓亚峰:如何打造一流的视觉AI技术 DATE: 2024-04-28 23:40:39
导读 :本次分享主要分以下几个部分:首先简要介绍一下计算机视觉技术的邓亚打造相关背景,然后结合格灵深瞳的峰何实践 ,从算法研发、视觉训练平台、技术智能数据处理、邓亚打造异构计算等几个方面着重介绍如何打造一流的峰何视觉AI技术 ,最后介绍格灵深瞳在相关技术落地方面的视觉情况。
01
计算机视觉及其相关技术
1.计算机视觉概述
计算机视觉作为人工智能领域最重要的技术技术方向之一,其基础是邓亚打造机器学习算法,而深度学习算法无疑是峰何当前最受欢迎的机器学习算法。随着计算机算力的视觉不断增强,海量数据的技术增长,深度学习算法的邓亚打造提出使得用更大量数据训练更深的网络成为可能 ,在限定的峰何场景下,一些图像识别算法的视觉准确率已经超越了人类 。从应用角度 ,我们正处于计算机视觉应用爆炸性增长的智能时代 ,包括移动互联网、自动驾驶、智慧城市 、智慧医疗、机器人 、增强现实、智慧工业等在内的多个方向 ,都取得了非常多的进步 。从另外一个视角看 ,计算机视觉是对物理世界的数字化,是智慧物联网时代最大入口 ,和大数据技术结合拥有非常广阔的应用场景。
2. 计算机视觉技术愿景
计算机视觉技术从广义上讲是让计算机看懂世界 ,狭义上讲就是通过丰富的视觉传感器 ,理解物理世界中每个物体的位置、属性、身份以及行为等信息。
计算机视觉技术从算法方面期待:
- 功能更加丰富 :感知方面从位置检测 、属性识别、身份识别,逐步向行为识别和关系识别(不同物体间的关系)发展;
- 目标类别更全:分析目标从人脸 、人体、车辆,拓展到商品 ,再拓展到其它物体;
- 理解粒度更细:从理解图像中包含什么物体的分类任务,到理解物体在图中的具体位置和数目的检测任务 ,进一步到理解物体的部件以及关键点位置的关键点定位技术 ,更进一步到理解每个像素所属类别的语义分割任务。
计算机视觉技术从产品性能角度则期待 :
精度更高 、速度更快 、成本更低、支持规模更大、功能更丰富 。
--
02
如何打造一流的视觉AI技术
1. 构建计算机视觉系统的基本流程
对于一个视觉应用系统而言,需要先将应用系统划分为不同的子模块,比如人脸识别系统 ,就包括人脸检测、特征点定位、人脸识别等不同子模块。对于每一个子模块,都由输入输出定义、数据收集 、数据标注 ,训练框架选择 ,算法实现,模型训练,模型选择,模型上线等不同步骤组成。
2. 构建视觉计算系统的关键因素
构建计算机视觉计算系统主要包含下面几个关键因素:
- 核心算法研发 :即如何开发出更准确、更快、更多功能的算法;
- 自动化大规模训练框架:即如何支持更大规模集群 ,更加自动化地训练算法;
- 智能数据挖掘和标注:即如何做到高效的数据挖掘和低成本的标注;
- 基于硬件平台的计算优化 :即如何选择硬件平台 ,以及在硬件平台上做性能优化。
(1)核心算法研发
算法研发是一个不断迭代、精心打磨的过程 ,工业界和学术界最大的区别是学术界希望创造更多的算法 ,追求更多的是新颖性和创造性 ,而工业界追求的是系统的功能 、性能、稳定性指标,并不要求发明最新颖的算法 ,而是要依据业务需求和资源限制做出最好用的系统。在工业界进行算法改进 ,包括很多维度,如数据如何处理、数据规模和来源,参数设置 、模型结构,还包括损失函数设计,模型加速算法等,每一个因素都可能对最终结果影响很大。还有非常重要的一点是,需要从系统角度去解决问题,比如设计新的系统处理流程 ,比如把问题定义为检测问题还是识别问题。