盎锐孙燕生博士,RK开发者之春受邀演讲

2019-05-10

本届瑞芯微开发者之春2019大会, 以”智享芯未来“为主题吸引了近千位开发者及行业领先企业人员参与, 多家拥有全球影响力的知名公司出席活动。 盎锐科技(UNRE AI Limited)创始人孙燕生博士, 作为3D智能视觉领域的全球知名专家以及创立Weitek, C-Cube 以及DVS等知名硅谷高科技企业的成功连续创业家, 受邀以”3D连接人与世界“为主题进行精彩讲演。

903935cfb37762c_w1268_h846.jpg

以下为孙燕生博士以”3D连接人与世界“为主题进行的精彩讲演内容:

三维的世界才是真实的世界, 而目前的拍摄和显示技术,把我们限制在一个平面的世界里。

由于智能手机的低成本3D相机的出现, 推动着我们用3D的方式与世界交互, 3D产业的生态正在建设,我们正面对又一个10年的发展机遇。

对于人类而言, 可以通过眼睛“看清“周围环境的东西, 还能”识别并理解“这些东西, 对这些东西形成”认知和决策“, 越来越多的AI领域研究人员正努力让AI同样做到这一点。从人类的三维视觉出发, 三维智能视觉已经成为人工智能研究和应用的热门领域。

随着智能视觉应用的深入, 智能视觉技术进入“三维“的阶段, 也就是不仅仅要看清某个东西, 认识某个东西, 还要走进这个场景, 在三维世界真实地感受场景, 这就需要具有三维空间感知与认知能力的智能, 即三维智能视觉。

三维智能视觉是由许多学科融合而来, 包括计算机视觉, 计算机图形学等领域的技术与深度学习, 大数据的交叉融合。

4456fe355fa7dc0_w1268_h846.jpg

三维智能视觉总结起来有几大方向, 首先是三维感知, 也就是感知三维空间, 获取和处理三维深度; 再来是位置感知, 比如感知相机的位置; 第三是三维成像及建模, 不仅对场景有基本的深度感知, 还要获得关于场景完整几何模型的描述; 最后是三维理解, 对场景和其中的物体从三维空间来进行理解。

三维智能视觉的发展, 得益于视觉传感器的发展, 而传感器可大致分为两类, 一类是被动传感器, 比如我们现在用的各种相机就是被动传感器。另一类是主动传感器, 以主动发射信号为主导进行测量的传感器。

对于三维成像, 目前低成本三维成像解决方案包括飞行时间(TOF), 结构光, 立体视觉以及光场等方式。对于使用者而言, 其区别在于成像精度, 速度, 分辨率, 帧率和对环境的依赖性等方面。

对于三维建模, 特别是三维人像建模及分析处理, 由于低价的消费级RGB-D传感器的出现, 大幅下降了三维人像建模及分析处理的成本。过去单张图像的3D人像重建, 经典方式是3DMM, 这是一种统计方法, 做法是收集许多人脸模型, 用PCA降维求出统计模型, 然后把统计模型拟合到待求人脸。如今深度学习方法也是用同样的核心思路。多张图像带纹理重建, 也就是在单图任务基础上的自然延伸。

再谈到三维人像分析, 处理流程可以分为数据采集, 预处理(移除尖点, 填充孔洞等), 形状表示, 测量与匹配。三维人像分析的应用场景, 包括身份验证, 表情分析, 美学分析等。典型的应用是iPhone FaceID, 它采集人像的三维数据进行记录和比对。FaceID的出现表明三维人像已经可以在一些定制化产品上进行应用。三维人像处理技术在人脸识别, 美业, 新零售虚拟试穿试戴等领域有许多的应用场景, 为产业升级进行了赋能。

dd1b38b4e9ef165_w1268_h846.jpg

同时随着三维传感器的普及, 三维数据越来越多, 如何实现对三维场景的精细化理解变得非常重要。理解场景很重要也很有效的一个方法就是深度学习, 最早的所有深度学习都是针对二维影像, 卷积神经网络面向二维影像, 而对于三维场景, 输入数据是三维点云, 过去没有卷积神经网络能够天然地处理非结构化的三维点云, 随着人工智能技术的进步, 三维场景的精细化理解变为可能。

a6218ddb59fb44c_w1269_h846.jpg

3D未来拥有巨大的商业机会, 三年后市场突破百亿美元, 六年后突破250亿美元, 市场爆发式成长的驱动力来自于, 5G网络趋于成熟, AI技术升级, 多元终端兴起, 支持3D摄像头的智能手机普及化以及3D应用领域持续扩张。

3D产业的基础构成包括拍摄设备, 用于垂直应用的分析处理工具和语义工具, 显示设备。其中用于垂直应用的分析处理工具和语义工具, 应用2D也可实现部分功能, 但2D成像获得的图像信息存在特征信息损失; 3D成像不仅为了拍照, 更关键的是要获取深度信息。

重建真实世界以服务于后续的人机交互, 只能是3D技术来承担重任, 正是交互的需求催生了3D成像。而算力引擎(包括超长指令集架构视觉处理器, DSP, NPU, GPU, FPGA), 算法(包括计算机视觉, 人工智能图像处理, 计算机摄影学, 计算机图形学)和光电技术(用于拍照及显示的光电技术)的快速发展, 带动了3D产业的高速爆发。

其中产业升级需求拉动效应更是使得3D产业市场规模进一步扩大, 包括5G时代的4D视频通讯, 新零售的虚拟3D产品试穿试戴, 大美业的3D人像及身体的量测及分析, 建筑业及制造业的精准3D建模及量测等等。

3f260aaee5e5d54_w1268_h846.jpg

从2017年创立至今, 盎锐科技已经完成由3D智能视觉算法引擎的单一产品线, 到打通由前端UNRE U8090/U8091 3D Camera, 深度整合UNRE 3DSenz智能视觉算法引擎与RK3399Pro AI Chip, 所架构而成的full stack全栈式UNRE AIO 3D智能视觉开发平台, 可支持多模3D相机, 前置3D结构光, 后置3D TOF。

c6550b66934fee4_w2335_h1215.jpg

盎锐科技在3D人像处理及人像压缩, 3D物体测量, 4D视频直播以及TOF-SLAM的full stack全栈式解决方案已覆盖, 新零售一体机, 娱乐类, 医疗类, 安防监控, 工控类, VR等多个科技领域, 作为3D智能视觉的代表企业, 盎锐一直保持着超前的产品布局, 不断提升在3D视觉领域的影响力与产品竞争力, 与瑞芯微, 英飞凌, 英特尔等国际巨头保持着深度合作, 逐渐在全球3D智能视觉科技产业链拥有更具高度的主导权与话语权。

当前, 3D应用已经到达高速爆发的引爆点, 低成本3D相机, 5G网络, 低成本算力和全息显示等基础技术和设备已经就绪, 应用于大美业, 大娱乐, 新零售, 即时通讯等行业的时机已经成熟。盎锐科技是3D智能视觉领域的先行者之一, 让我们一起开创和享受3D联结世界的美好未来。