一.成熟的双目VIO技术
从Phantom 4开始,室内定位从光流转为双目VIO,其中包括Guidance,Phantom 4到现在的Mavic Pro。技术已经十分成熟,放到世界也是TOP级。
写了和DJI有关系的几篇paper
- Zhou G, Fang L, Tang K, et al. Guidance: A Visual Sensing Platform For Robotic Applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2015: 9-14.
- Zhou G, Ye J, Ren W, et al. On-board inertial-assisted visual odometer on an embedded system[C]//2014 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2014: 2602-2608.
- Zhou G, Liu A, Yang K, et al. An embedded solution to visual mapping for consumer drones[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014: 656-661.
这些都是之前的工作了,没写的就不说了。(想想还在外包做光流的小厂商,真是难啊。)
有人提到了Shaojie Shen,那有兴趣的可以自己去查一查。
Kumar那次蛮火的TED,多半都是Shaojie Shen的工作了。
二、DL相关
(以下摘自雷锋网,凑合看吧hhh)
在Mavic Pro身上,大疆还有哪些技术秘密你不知道?
手势自拍
如今很多小型无人机都自称自拍无人机,不过其实都是属于跟拍,通过跟踪人或人脸来实现拍摄,大疆在今年3月的Phantom 4已经实现过,如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍,也就是通过手势来进行抓拍。
当你走到画面里,Mavic Pro会自己识别移动的人,并且你可以向它挥手让它来跟着你飞行,在跟踪过程中只要做出拍照手势,它就会帮你抓拍。如此一来,你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时,也可以在不需要遥控器的帮助时,重新走回画面中,让飞机继续跟随。值得一提的是,当开启GPS辅助时,飞机会融合GPS的信息来进行矫正。
对于一般的手势识别系统而言,整体的步骤大概分为三步,也就是手部的定位、建模和识别。手部建模现在主要有两种方法,2D和3D,主要是看使用了什么样的摄像头,建模好后最后再进行识别,比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的,有的是直接拿3D手部模型去识别,有的是把3D模型转化成2D图像,再在这个基础上利用深度学习进行分类识别。目前在室内环境中,由于距离较近,手势识别的难度并不大,像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下,在无人机上用这种摄像头远距离识别手势,大疆应该算是首个尝试的。
Mavic Pro并没有使用3D摄像头,而是通过2D主相机来进行识别的,其难度要比使用3D摄像头大很多。首先,飞机要在没有深度信息的前提下准确地识别和定位画面中的人,其次,要完成一系列手部的定位、建模和动作的识别。
Mavic Pro据称使用的是深度学习,而深度学习对于计算设备有较高要求,一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops(每秒计算的浮点数),而大疆使用的是联芯LC 1860,官方给出的总处理能力在8GFlops,相差大概700倍,在这么低的处理平台上做深度学习,就面临着神经网络设计上的突破,训练的技巧,模型的精简与压缩,底层实现的优化等问题。
关于Mavic Pro的手势自拍,在体验过程中的感受是,反应还比较及时,大多数情况都能做到准确识别,功能方面比较好。体验方面,闪烁灯提示在阳光下比较弱,闪烁3秒后开始拍照,如果倒计时开始时加个声音提示可能会更好。
物体的检测和识别
物体的识别,是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别(比如汽车),也可以细粒度的类别(比如奔驰C200、宝马X5)。物体的检测,是指在画面中自动找出感兴趣物体,并标出它们的轮廓。全世界著名的ImageNet竞赛,比拼的就是物体识别和检测的准确性。
Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标,而由于小白用户常常难以做到,尤其当目标在运动中。一方面会因为框的不准确,而造成智能跟随表现不理想,另一方面对于正在运动中的物体,很难框中。而物体检测和识别技术,可以让用户实现即点即走,让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体(人、汽车、卡车、动物、船、人骑自行车或摩托车等),并号称其跟随的动作会根据不同的物体有相应的优化。
做过相关领域的人,我想应该都明白把DL做到产品级有多难。
以上就够了。 |