DJI 在机器视觉领域的研发实力有多强？

xiarunzi · 发表于 2023-9-15 01:10:12|来自：北京理工大学

之前在5imx上看到这个贴：消费级无人机的“代”

第三代和第四代的产品只有DJI家的，这侧面能反映出DJI在视觉领域的研发水平至少在其他消费机无人机公司之上。
但找不到其他资料能显示出DJI在视觉领域的研发实力究竟有多强。

所以很好奇DJI在机器视觉领域的研发实力究竟如何。

abcadr · 发表于 2023-9-15 01:10:43|来自：北京理工大学

一直觉得这些视觉使用上都是战五渣，没有什么卵用的东西，然而在翻腾和马尾克上确实只能作为辅助玩乐。壁障增加安全，视觉增加近地稳定而已。
直到我遇到了因斯派2的聚焦模式，那特么的简直就是逆天。整合的太好了。

woaiyan · 发表于 2023-9-15 01:11:06|来自：北京理工大学

http://click.dji.com/AEyb3yDZIspiv1L7Lay8?pm=link

zp0223 · 发表于 2023-9-15 01:11:42|来自：北京理工大学

谢邀，为了回答这个问题专门去请教了在 DJI 工作的小伙伴。

如果按照题中的分类来讲，Mavic已经不再是第四代，而是跑到了第五代的位置。
因为以Phantom 4为代表的第四代消费机无人机还停留在传统机器视觉的应用范畴内。
比如说光流、比如说VIO、比如说基于框选的tracking，都是传统的feature-based vision application。
而 Mavic 上用到的技术证明了 DJI 在视觉领域的发力已经走出了传统视觉的研究范畴，踏入了以Deep Learning和Neural Networks为代表的新时代机器视觉研究领域。
比如说手势自拍，比如说tracking时候用户点选飞机自动识别是人是车还是船，这些都不是通过传统机器视觉的技术实现的，而是在神经网络中进行大量训练得到的结果。
能把deep learning做到产品里面的厂家，现在真的不多吧。
以下转自雷锋网，文中的视觉工程师即是我的小伙伴。
在Mavic Pro身上，大疆还有哪些技术秘密你不知道？

“其实，Mavic最核心的地方在于计算机视觉”，Mavic Pro发布后大疆的一名视觉工程师如此向雷锋网强调着，彼时大家对于这款在很多方面都超越Phantom 4的无人机更多的讨论还是围绕在便携和巧妙的工业设计上，而作为其中的参与者，Mavic Pro新增的智能功能才是让他最为兴奋的。按照公开资料来看，这些新增的智能功能让Mavic Pro算得上是全球首款基于深度学习的消费级无人机。

首先我们将Mavic Pro与Phantom 4对比一下，Mavic Pro新增了哪些智能功能：1. 手势自拍；2. 物体识别；3. 视觉跟随中的平行跟随、焦点跟随、自动环绕；4.精准降落。
这里面每一个功能的背后，都是在试图解决计算机视觉和机器人学领域里最核心也是最头疼的难题，同时也是大疆隐藏最深的秘密。

手势自拍

如今很多小型无人机都自称自拍无人机，不过其实都是属于跟拍，通过跟踪人或人脸来实现拍摄，大疆在今年3月的Phantom 4已经实现过，如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍，也就是通过手势来进行抓拍。

当你走到画面里，Mavic Pro会自己识别移动的人，并且你可以向它挥手让它来跟着你飞行，在跟踪过程中只要做出拍照手势，它就会帮你抓拍。如此一来，你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时，也可以在不需要遥控器的帮助时，重新走回画面中，让飞机继续跟随。值得一提的是，当开启GPS辅助时，飞机会融合GPS的信息来进行矫正。

对于一般的手势识别系统而言，整体的步骤大概分为三步，也就是手部的定位、建模和识别。手部建模现在主要有两种方法，2D和3D，主要是看使用了什么样的摄像头，建模好后最后再进行识别，比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的，有的是直接拿3D手部模型去识别，有的是把3D模型转化成2D图像，再在这个基础上利用深度学习进行分类识别。目前在室内环境中，由于距离较近，手势识别的难度并不大，像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下，在无人机上用这种摄像头远距离识别手势，大疆应该算是首个尝试的。

Mavic Pro并没有使用3D摄像头，而是通过2D主相机来进行识别的，其难度要比使用3D摄像头大很多。首先，飞机要在没有深度信息的前提下准确地识别和定位画面中的人，其次，要完成一系列手部的定位、建模和动作的识别。

Mavic Pro据称使用的是深度学习，而深度学习对于计算设备有较高要求，一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops（每秒计算的浮点数），而大疆使用的是联芯LC 1860，官方给出的总处理能力在8GFlops，相差大概700倍，在这么低的处理平台上做深度学习，就面临着神经网络设计上的突破，训练的技巧，模型的精简与压缩，底层实现的优化等问题。

关于Mavic Pro的手势自拍，雷锋网(公众号：雷锋网)在体验过程中的感受是，反应还比较及时，大多数情况都能做到准确识别，功能方面比较好。体验方面，闪烁灯提示在阳光下比较弱，闪烁3秒后开始拍照，如果倒计时开始时加个声音提示可能会更好。

物体的检测和识别

物体的识别，是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别（比如汽车），也可以细粒度的类别（比如奔驰C200、宝马X5）。物体的检测，是指在画面中自动找出感兴趣物体，并标出它们的轮廓。全世界著名的ImageNet竞赛，比拼的就是物体识别和检测的准确性。

Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标，而由于小白用户常常难以做到，尤其当目标在运动中。一方面会因为框的不准确，而造成智能跟随表现不理想，另一方面对于正在运动中的物体，很难框中。而物体检测和识别技术，可以让用户实现即点即走，让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体（人、汽车、卡车、动物、船、人骑自行车或摩托车等），并号称其跟随的动作会根据不同的物体有相应的优化。

Mavic Pro对人的跟随，图片来自网络体验视频

Mavic Pro对船的跟随，图片来自网络体验视频

智能跟随的模式升级

无人机跟随主要有两种方式，一种是依靠GPS，一种是依靠视觉。GPS跟随需要用户携带额外的遥控接收器，并且依赖于空旷的环境以确保GPS信号足够强。此外，让用户最过头疼的是，GPS跟随难以保证拍摄主体在画面中。视觉跟随可以很好地克服这些缺点，但是视觉跟随的难度也比较大。由于视觉跟随过程中是没有人类交互的，告诉算法的所有信息都在第一帧的框里，这个框告诉了算法什么是目标，什么是背景，而算法并不知道的是，这个目标在其它视角的样子是什么，也不知道这个目标如果自身会改变成什么样的形态。如果目标的姿态变化过大，或者目标在另一个视角下看起来跟一开始的样子差别很大，算法还需要判断现在框里的还是不是当初那个目标，或者是不是已经变成另一个物体了。也就是说，第一帧的框，是不是能紧紧框住目标的边缘，不包含太多背景。也不遗漏掉目标的其它部分，这对于跟随的算法来说至关重要。
Phantom 4已经实现了视觉跟随，不过仅限于前方与侧前方跟随，Mavic Pro为用户带来了多种跟拍模式，包括焦点跟随，以及用户期待已久的平行跟随和自动环绕。这两个模式能够帮用户拍出一些意想不到的视频。但在这些模式下，飞机看到目标的视角和样子也千变万化，对算法的鲁棒性提出了更高的挑战。要做到低空高空都能任意跟随的话，在目标跟踪领域里也是一大难题。而Mavic Pro能够在低成本低性能的平台上实现对任意物体的跟随，并且根据目标的类型而选择合适的跟随策略进行控制。

http://static.leiphone.com/uploads/new/article/740_740/201611/581c1eaf9c74d.gif

Youtube上这则用户使用ActiveTrack的自动环绕功能的视频，其中的目标包含了各种姿势的形变，包括站起、蹲下、趴下，在水面的遮挡干扰，光线的强弱变化等等干扰因素下，ActiveTrack仍然顺利完成了跟踪任务。

精准降落

与其他大疆无人机产品一样，Mavic Pro在与地面端失去联系或低电量情况下将自动返航，并加入全新的“精准降落”功能：两台下视相机会在每次起飞时拍摄一组照片，在返航着落过程中通过对下视观测和起飞记录照片的匹配来实现厘米级别的精准降落。

Mavic Pro精准降落是用到了SLAM中的回环检测技术，飞行过程中会记录视觉传感器看到的图像信息，并且根据这些信息来进行精准降落。也就是说，它降落的时候，一直在和当时起飞的时候所看到的图像进行对比，并且持续调整自己的方向。并且最近Mavic Pro的升级更新，据说增加了识别地面是否平整，以及地面是否是水面的功能，从而很大程度提高了降落的安全性。可以看出大疆对用户体验的重视以及对产品精益求精的追求。

“史上最智能无人机”背后是大疆的成功转型

Mavic Pro发布之时，大疆用了“史上最智能无人机”来概括这些新增功能，而关于更多的细节部分则甚少提及。因此，也很少人注意到，这些功能背后是大疆早已默默地从一家“飞行相机”企业成功转型为机器人企业。

其实早在今年3月，大疆创始人汪滔曾以“欢迎来到计算机视觉时代”一语点出了Phantom 4的核心所在，同时，大疆默默把自己的描述从以前的”Flying Camera” 变为了”Flying Robot”。Phantom 4面世所带来的意义，即&#34;机器视觉时代”的到来，以往几十年全世界人对于计算机视觉的期待仅仅停留在论文和实验室以及有限的工业场景中，而现在，计算机视觉以一种更好玩、更动感、更直接的表现形式回来了，让大众消费者都能感受到它带来的便利。而这一切，都源自大疆过去两年中在计算机视觉上所做的准备。

图片来自大疆官网

计算机视觉的结果要转化为辅助控制做决策的过程中，要能结合各个模块传感器做出实际可用的应用，要涉及到相机、云台、IMU惯导模块、气压计、GPS、超声波、前视双目、下视双目以及视觉里程计等非常多和复杂的模块。成熟的SDK架构也贡献很大，大疆的无人机和飞控都有一套非常规整的SDK（软件开发套件）提供API给第三方开发者使用。
大疆还主办各类飞行器及机器人比赛，从与福特汽车合作的SDK开发者大赛，任务是依靠目标识别进行无人机的移动汽车平台降落，到堪称最炫酷机器人比赛的全国大学生RoboMasters中的敌方机器人识别和自动瞄准，各个比赛中的视觉功能所占比例也是重中之重，而底层完善的SDK支持都是开发者效率的保障。

Robomasters中机器人正在利用计算机视觉技术对面板上的图案进行识别并选择正确的图案攻击

大疆筹办这类比赛一方面是对社会人才培养的回馈和贡献，另一方面更多也是为了人才储备，因为赢得比赛往往意味着赢得一张去大疆工作的Offer，为大疆源源不断地输送计算机视觉和控制类的顶尖人才。

另外，虽然大疆在业内一向很低调，不过在各大学术会议中则是积极者。CVPR是计算机视觉领域中最顶级的会议，在今年6月末开启的CVPR 2016上，大疆作为重要赞助商出现在了CVPR的会场，其参展的展位就在Apple、Intel、Microsoft和Google中间，而且还对与会的研究人员们做了演讲。

可以说，就在其他无人机企业还在寻找哪个方向才是正道时，大疆早就明确要走哪条路并且知道要干什么。今年大量小型无人机出现在市面上，很大原因是大家以为大疆不会做小型无人机，而Mavic Pro出来后，他们又将面临曾经跟精灵系列正面竞争的相似局面。而对于大疆来说，做大无人机还是小无人机，或是说做航拍无人机还是自拍无人机，这些并不是最重要的，只要掌握了最核心的技术，做什么样的无人机只是一个选择而已。

还记得2015年11月大疆与美剧神盾局特工主演汪可盈合作拍摄的Phantom X概念视频吗？里面汪可盈用优美的太极动作来控制无人机在空中作画。如今也不过一年时间，当时觉着天方夜谭的场景，现在再看看Mavic Pro是不是觉得很近了呢？

雷锋网原创文章，转载请注明来源出处

hrypc · 发表于 2023-9-15 01:12:12|来自：北京理工大学

大疆厉害的不单单是机器视觉，还是机器视觉和传感器的融合算法。
大疆和港科大的产研学合作是刻在基因里的。港科大机器人实验室的沈老师，Shaojie Shen，和大疆在无人机机器视觉的应用上有很多合作。他个人很勤奋，他们组今年中了ICRA 2016四篇文章，都和四旋翼上应用机器视觉有关，应该也会对大疆在机器视觉领域的应用有帮助。
附：双目摄像头测深度的算法，因为需要经常校准，而且受温度影响太大，沈老师已经不太看好了。
附图：他们组今年中的四篇文章：

迈天过海 · 发表于 2023-9-15 01:12:40|来自：北京理工大学

一.成熟的双目VIO技术
从Phantom 4开始，室内定位从光流转为双目VIO，其中包括Guidance，Phantom 4到现在的Mavic Pro。技术已经十分成熟，放到世界也是TOP级。
写了和DJI有关系的几篇paper

Zhou G, Fang L, Tang K, et al. Guidance: A Visual Sensing Platform For Robotic Applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2015: 9-14.
Zhou G, Ye J, Ren W, et al. On-board inertial-assisted visual odometer on an embedded system[C]//2014 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2014: 2602-2608.
Zhou G, Liu A, Yang K, et al. An embedded solution to visual mapping for consumer drones[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014: 656-661.

这些都是之前的工作了，没写的就不说了。（想想还在外包做光流的小厂商，真是难啊。）
有人提到了Shaojie Shen，那有兴趣的可以自己去查一查。
Kumar那次蛮火的TED，多半都是Shaojie Shen的工作了。
二、DL相关

（以下摘自雷锋网，凑合看吧hhh）
在Mavic Pro身上，大疆还有哪些技术秘密你不知道？

手势自拍
如今很多小型无人机都自称自拍无人机，不过其实都是属于跟拍，通过跟踪人或人脸来实现拍摄，大疆在今年3月的Phantom 4已经实现过，如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍，也就是通过手势来进行抓拍。
当你走到画面里，Mavic Pro会自己识别移动的人，并且你可以向它挥手让它来跟着你飞行，在跟踪过程中只要做出拍照手势，它就会帮你抓拍。如此一来，你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时，也可以在不需要遥控器的帮助时，重新走回画面中，让飞机继续跟随。值得一提的是，当开启GPS辅助时，飞机会融合GPS的信息来进行矫正。
对于一般的手势识别系统而言，整体的步骤大概分为三步，也就是手部的定位、建模和识别。手部建模现在主要有两种方法，2D和3D，主要是看使用了什么样的摄像头，建模好后最后再进行识别，比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的，有的是直接拿3D手部模型去识别，有的是把3D模型转化成2D图像，再在这个基础上利用深度学习进行分类识别。目前在室内环境中，由于距离较近，手势识别的难度并不大，像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下，在无人机上用这种摄像头远距离识别手势，大疆应该算是首个尝试的。
Mavic Pro并没有使用3D摄像头，而是通过2D主相机来进行识别的，其难度要比使用3D摄像头大很多。首先，飞机要在没有深度信息的前提下准确地识别和定位画面中的人，其次，要完成一系列手部的定位、建模和动作的识别。
Mavic Pro据称使用的是深度学习，而深度学习对于计算设备有较高要求，一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops（每秒计算的浮点数），而大疆使用的是联芯LC 1860，官方给出的总处理能力在8GFlops，相差大概700倍，在这么低的处理平台上做深度学习，就面临着神经网络设计上的突破，训练的技巧，模型的精简与压缩，底层实现的优化等问题。
关于Mavic Pro的手势自拍，在体验过程中的感受是，反应还比较及时，大多数情况都能做到准确识别，功能方面比较好。体验方面，闪烁灯提示在阳光下比较弱，闪烁3秒后开始拍照，如果倒计时开始时加个声音提示可能会更好。
物体的检测和识别
物体的识别，是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别（比如汽车），也可以细粒度的类别（比如奔驰C200、宝马X5）。物体的检测，是指在画面中自动找出感兴趣物体，并标出它们的轮廓。全世界著名的ImageNet竞赛，比拼的就是物体识别和检测的准确性。
Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标，而由于小白用户常常难以做到，尤其当目标在运动中。一方面会因为框的不准确，而造成智能跟随表现不理想，另一方面对于正在运动中的物体，很难框中。而物体检测和识别技术，可以让用户实现即点即走，让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体（人、汽车、卡车、动物、船、人骑自行车或摩托车等），并号称其跟随的动作会根据不同的物体有相应的优化。

做过相关领域的人，我想应该都明白把DL做到产品级有多难。
以上就够了。

DJI 在机器视觉领域的研发实力有多强？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家