iPhone 13的刘海,为什么缩小了?(及全网最详Face ID解析)

Original-VideoinhaltVideo erweitern
  • 今年的iPhone13系列视频不只是一场简单的测评。
  • 我们将深度探讨每个功能背后的原理和故事。
  • 第一季节目关注的焦点是刘海的缩短
  • 整体封装体积虽未有显著变化,但内部组件有新的整合。
  • 结构光原理在FaceID中的应用至关重要。

今年的iPhone13系列视频我们不打算叫它测评,我们并不想简单的走一遍流程告诉你哪里提升了百分之几年终了嘛,还是想给大家上点硬菜的。因此,在今年的视频里没有功能介绍,也没有参数对比,也没有购买建议,因为无论是我们想做的还是你们想看的,恐怕都不止这些。

这次的iPhone13系列视频我们打算分成几期,每一期只深入研究一个问题。如果你和我一样好奇功能背后的原理,好奇科技背后的故事,那你可以去倒一杯水,坐下来慢慢看了。

第一期节目我们想从最表层的变化开始聊起。今年的iPhone13外观上感知最大的变化就是刘海缩短了。如果你去网上搜索一圈,你会发现流传最广的说法是刘海变小是因为结构光组建里的点阵投射器体积缩小了50%。我查到这个说法最早应该是出自Digitimes 5月份的这篇报道,原文是说根据供应链的消息,今年激光点阵投射器的芯片面积缩小了40%到50%。这个说法对也不对,我们直接拆掉了两个费塞丁模组,暴力去掉封装之后,放到显微镜下量了一下尺寸。

可以看到,iPhone13的点阵投射器芯片面积大约是0.46平方毫米,相比iPhone12的0.9平方毫米确实减少了53%。但是如果你再加上电源管理,再加上周边的电路,从整体的封装体积上来看,两者其实并没有太大的差距。这是因为在今年的点阵投射器里还把之前曾经独立封装的泛光灯也集成了进去。而且今年泛光灯的芯片面积也比12减少了48%。这两个元件合二为一,使刘海缩小的第一大功臣。

而更重要的是,原来听筒开孔的位置从中间移到了边框上,这让刘海里的元件排列的更加紧密,这让整个横轴变短了。但问题是,在安卓阵营把听筒放到边框里,在很多年前就已经是基本操作了,这不应该是什么高清科技,对吧?既然今年能缩,为什么去年不缩?去年缩不了又是受什么样的技术条件所限?今天我会给你我的猜测,苹果扛着压力坚持用刘海屏最大的原因就是FaceID。而这个结构光模组可以说是决定整个刘海形态最重要的因素。

想知道刘海为什么缩小,我们就要先搞明白关于FaceID前前后后的所有事情,而这就要从一个看似毫不相干的话题开始聊起。在广州军区司令部编译的《科教巨著 怎样打飞机》里面提到了用跳檐法估算敌机距离的方法。先闭住左眼,记住大拇指的位置,再闭右眼,估算两个位置的距离,再把它称为10,就是你和被测误之间的距离了。学有余力的同学也可以搜一期李永乐老师的物理课,讲的是在量界里面林龙是怎么用跳檐法用意大利炮干他娘的。这种测距方法和结构光的原理十分相似,通过两只眼睛的视差来判断出物体离得越近,离得越近,视差就越大。

很多手机上的摄像头就是用两个镜头之间的视差来估算主体的深度,做背景虚化的。但是这种方法有一个很明显的缺点,就是对于一些光滑或者是缺乏纹理的表面,摄像头因为找不到特征点,它是很难做出匹配的。就像一堵大白墙,往前十厘米和往后十厘米,对摄像头来说它都是一堵大白墙,只要墙够光滑,深度信息就判断不出来。

怎么办呢?没有关系,既然缺纹理,那我们就给它创造一点纹理。我们把其中一颗摄像头变成一个光投射器,主动往目标身上投射一点纹理,再由另一颗摄像头捕获。这就是结构光的基本原理了。在工业上,结构光常被用来做物体的三维重建,比如用投射器把光栅打在物体的表面,那目标的凹凸就会造成光栅的形变。

投射器对光栅进行编码,让摄像头匹配出每条光栅的对应位置,就可以重建出目标的三维图像。这种方案的精度可以做到微米级,但是功耗控制和元件小型化都很困难。所以在手机上面,苹果是采用了投射不规则散斑的方案。

接下来,我们就把苹果的FaceID里里外外拆个干净,一步一步的看它是怎么实现的一次人脸解锁的过程大概是这样的:在你按下解锁键之后,首先工作的是距离传感器,这个传感器用TOF的方法判断有没有物体接近。如果有,泛光灯亮起,发射肉眼不可见的红外光,把人脸照亮,再由红外摄像头拍摄一张2D的人脸照片。紧接着点阵投射器开始工作,投射940nm的红外光斑,再由红外摄像头捕捉并识别光斑的特征,最后进行比对。

采用940nm是因为这个波长的光容易被大气中的水分子吸收,所以可以克服自然光所带来的噪声。这些组件被苹果放在了同一个金属支架上,这么做的原因是为了让几个组件之间的相对位置始终保持一致。大家可不要小看这个小支架,这个支架它可太讲究了。它的重要度甚至不亚于里面任何一个元件,重要到苹果专门要为它和它的装配方式都单独申请了一个专利。

因为在结构光系统中,投射器和红外摄像头,它需要做非常精准的位置匹配。在工程上,这个动作叫做标定。两者的距离、角度哪怕有一点点变动都会严重影响识别的准确性,甚至让整个系统罢工。而为了让它们的位置保持相对固定,苹果在支架的连接处专门做了这样的一个小坡。这是因为这个键它在装配的过程中受到外力作用的时候,很有可能会在外轴发生弯折,而这两个小坡就可以避免这种弯折。

在支架的侧面,还有一条金属横梁焊在上面,双保险。这整个组件的安装的时候并不是用螺丝固定在机身上,而是用两块黄片压在屏幕和后盖之间。我们推测这样做的目的是为了让整个组件允许存在微小的整体位移,也就是说你手机如果摔了,那这些部件它可能会松动,但是点阵和摄像头它们要动只会一起动,不会有相对的位移。

这一切的目的是为了把点阵和摄像头之间距离的公差控制在极小的范围内。对于苹果来说,这个数字是正负80微米。定好了两个组件的位置之后,下一步我们来看模组里最关键的部件点阵投射器。

投射器的光源苹果用的是Vexel垂直墙面发射激光器,叫它垂直是因为它的发光方向是垂直于规基板的。相比这种边发射激光器,Vexel的好处是它可以投射出更圆的光斑。而且因为是垂直发光,所以它可以很容易的在一块硅脊板上,用光学膜直接刻出密集的阵列,而整个元件的厚度可以做到很薄。

对于手机来说,它投射出可分辨的点阵越多越密,识别的精度就越高。那想要把光点做多有两种办法:要么就把整块芯片做大,要么就把点阵间的间距做小。把芯片做大面临两个问题,首先Pixel挺贵的,越大就越花钱;而且在手机的空间里面也不可能让你放下太大的元器件。

而如果我们保持芯片面积不变,点阵的密度也是不可能无限叠加的。依照目前的技术,Vexel点阵的间距一般不低于18微米。倒不是因为工艺上做不到,而是因为如果再做小,在大的电流之下,它的散热压力会很大。

现有的FaceID组件在Vexel背后的位置是专门开了一个槽,用来贴散热材料,把热量导到中框上去的。iPhone12上的这块Vexel,如果我们不算导线面积,大概是0.81平方毫米,一共放进了321个点,而iPhone13又把密度增加了一倍,在0.37平方毫米里放进了284个点,再作弊,压力就太大了。

那问题就来了,我用这两三百个点的芯片,怎么投射出FaceID所需要的3万个光点呢?两个关键词复制拼接。激光从Vexel发射出来之后,首先经过准值透镜,然后通过两块棱镜的反射到达这个位置。而这里是另一个光线组件,光学衍射元件简称DOE。DOE的作用是把一个图案复制成很多份,然后成扇形射出。

通常情况下,这个光学元件是一个无源器件,但是iPhone上的这个DOE,它上面是有电极的。这是因为苹果专门做了一个检测机制,它把DOE和基板当成了一个电容。如果DOE的表面有破损导致了这个电容的变化,那苹果会直接把整个FaceID模块禁用掉。这是因为如果DOE失效,激光没有被正确的分散开来,那激光的能量就可能会超出安全范围,从而对人眼造成伤害。所以在这点上,苹果非常的保守,有一点点不对头就不惜把整个功能拿掉。这就是为什么FaceID是iPhone上非常容易损坏的一个部件。

闲郁的二手iPhone带面容和不带面容的也是两个价格。而如果你在手机店里面看过维修师傅修手机,有没有发现很多师傅他打开手机的第一件事就是马上拿一张胶带把FaceID给贴上,生怕他弄坏了,就是这个原因。

硬件的部分重点我们都说完了。在得到了这样一个漂亮的点阵图案之后,我们的下一步就是脸部的三维重建比对。刚刚我们说过结构光的原理是通过视差来判断物体的深度。就像我拿一根激光笔把一个光点投射到这块板子上,如果我从激光笔的右边观察,当板子往前移动的时候,这个光斑会往我视线的左边偏移;而当板子向后移动的时候,光斑则偏向右边。偏移的越远就说明它的深度越深。

你可能会注意到,要从画面里看出光点的偏移,摄像机和激光笔之间必须保持一定的距离。如果距离太短,光点的偏移量就会很小,摄像机就很难捕捉它的变化,导致精度下降。而摄像机和激光笔之间的距离就被称为基线。记住这个词,因为它等会儿会经常出现。对于点阵来说也是一样,基线如果越短,我们从摄像机上就越难看出点阵的形变,识别的难度也就越高。

但如果挪开一段距离就舒服多了。这就可以解释从iPhone X第一次引入面容解锁开始,在长长的刘海里面,红外摄像头和点阵投射器就一直占据着最左边和最右边的位置,因为它要保证机械的长度满足识别准确性。

但是在今年的iPhone13上面,红外和点阵第一次变成了邻居,机械的长度从之前的27mm缩短到了6mm。这是一个非常短的距离,对于iPhone来说,这道题的难度可谓是直线上升。

可是我们的实测却发现,iPhone13的解锁体验和前代相比,无论是解锁角度、解锁距离还是速度,都完全保持了一致的水准。那么它到底做了什么来抹平机械缩短所带来的性能损失呢?这个问题是在做这些内容的时候最花时间、最头疼,但同时也是最有惊喜的问题。

为了搞明白这件事,我们只能继续寻找两台手机的不同,希望能发现一些线索。第一条线索出现在点阵投影的图案上。在拍摄两台手机的点阵图的时候,我们发现iPhone12投射出的图案可以明显地看出DOE的复制痕迹,每个图块之间的边缘分界清晰可见。而iPhone13的图案则更加均匀和规则,边缘也更难分辨。

另外,如果我们仔细观察它们投射点阵的过程,会发现它们的工作流程也是有所区别的。接下来这段视频是我们用帧率60的红外相机拍摄的,每一帧的时长大概是16.7毫秒。在按下解锁键之后,最先亮起的是接近传感器,持续4帧;从第5帧到第8帧,泛光灯亮起,红外摄像头开始捕捉2D人影照片。到这里为止,两台手机还没有区别。

但接下来的第9到第1帧变化就来了,这个时候的iPhone会以伪随机的形式加入一些空帧,比如亮一帧停一帧,再亮一帧,或者先空两帧再亮一帧,每次解锁点阵量体的时间间隔,它都不一样。这又是什么原因呢?我们从苹果的这份专利里面找到了答案。

原来这个做法是为了增加安全性。点阵投影仪发信,摄像头收信,这就像是一个特工在和总部联络。我们相约在星期一、星期三和星期五,分别给你三份情报。那如果总部在星期二收到了一份情报,那么这份情报信息再正确,但只要时间对不上,那它就是假的。因为每次交接的时间都是尾随机的,具体哪一天来交接只有特工和总部两个人知道。这就可以防止有心人士拿一张伪造的红外图出来骗人。

除了投射的时序不同之外,两台手机投射的图案也不一样。iPhone13每次投射的点阵密度都是相同的,而iPhone12则有几套不同的图案,有时候疏一点,有时候密一点。这一点从iPhone12的Vexel上也可以看得出来。整块Vexel一共被分为了4块区域,左上164个点,右上136个,左下1个,右下10个。这4块区域用了不同的影角,可以独立的控制通断。

也就是说,手机通过4块区域的不同组合,理论上最多可以投出15种不同的图案。这样用这15种图案,再配合上尾随机的发报时序规则,就可以做出更复杂的编码来防止欺骗。

但是这还不是全部。在苹果的另一份专利里,我又找到了这四块区域的另一个用途。我们知道结构光是依靠图案的不相关性来进行匹配。简单说,就是手机在投射出一个个的斑点之后,它要知道这些斑点对应的是参考图中的哪里。如果正方形重叠,就会出现误匹配,深度当然也就解不出来了。

所以一片理想的三斑图案应该是具有高度不相关性的。就是每一个小区域在整张图里最好它都是唯一的。但是对于手机来说,因为每一个光点长得都一模一样,完全没有特征,所以手机必须把图像分割成一个一个的小窗口,再以窗口为单位去整张图里寻找匹配。

而这个时候窗口怎么画、画多大就很重要了。对手机来说,点阵越稀疏,窗口画的越大,它的计算压力就越小,识别起来就越快。但是也正是因为窗口大了,所以分辨率上不去,只能做低精度的扫描。就像乐高一样,每个积木颗粒越大,就越难看出是个什么东西。

而要得到更高的精度,我们就要让点阵更加密集,把窗口划小。但是在匹配的时候,因为每个窗口都要经过更多次的迭代以寻找最佳匹配,所以速度当然就要慢一点。

所以在算力有限的前提下,苹果采用多个分区稀疏图案结合的方案,就可以在速度和精度之间找一个平衡。比如,它可以先扫一遍稀疏的图案,先分出大概的区块,然后再在重点区域用精细图案做精细匹配。再比如,在人脸技术这个场景中,精度是第一优先级,所以疏加密所有图案一起上。

但是用前摄拍视频的时候,手机只需要一个大概的景深信息用来做虚化就可以了,所以这个时候它就可以偷偷懒,只投射稀疏的点阵。否则以它的算力,是无法支持每秒60帧的运算的。

到了iPhone13这边,可以看到苹果取消了中间的分界线,用同一张图案来应对所有场景。哪怕是前摄拍个自拍,iPhone13也是把所有点全部堆进去,火力全开的计算。这也就说明,得益于SoC更强的算力,苹果今年很有可能是跳过了用稀疏图案先进行低精度扫描的这一步,而是直接用密集图案做高精度扫描。

从这些现象我们可以推测,对苹果来说,20毫秒解锁时间和一百万分之一的错误率,很有可能是他们内部划给FaceID的一条红线。只要这两个关键性能达标,那工程师就可以做各种各样的tradeoff。

所以我们的推论是,今年FaceID形态的变化,**一方面是得益于封装技术的进步,让Vexel和泛光灯合二为一,省掉了一个传感器的空间;另一方面是得益于SoC算力的提升,让手机可以容忍更短的机线。**因为计算变快了,所以手机可以实现在任何场景下的高帧率高精度的扫描,可以忍受更短的机线所带来的性噪比降低,但同时还把人脸解锁的速度维持在了20毫秒这一根红线里面。

当然,在苹果所有的公开资料里,我们并没有找到任何具体的讲解FaceID算法和识别流程的内容,这也让我们的推测只能止步于推测。但是在综合了所有的信息之后,这已经是我们认为最接近事实的可能了。

当然算力提升所带来的利好肯定不会仅限于此,我们今天讲的FaceID真的不过只是一道前菜罢了。如果说A15是今年苹果包的一盘饺子,那区区FaceID肯定当不了那碟醋。那这碟醋会是什么?谁有资格当这碟醋?这碟醋的味道怎么样?下一集我们来聊计算机。