计算机视觉迈进新征程 “玩家”找出哪些新玩法？

资讯 5年前

1.25K

计算机视觉源于1980年左右的神经网络技术，但是直到近几年才真正实现了大规模商业化落地。

当前，计算机视觉的已经成为了一个跨学科的领域，计算机视觉源于1980年左右的神经网络技术，但是直到近几年才真正实现了大规模商业化落地。大规模的资金进入，促使更多专注于计算机视觉的企业不断出现，这些企业在不同的领域通过计算机视觉技术不断的改造升级着原有的商业模式。作为一个灵感来自人类视觉大脑皮层的技术，我们现在是否已经处在机器物体探测或分类能力与人类视觉相当，甚至更强的阶段了呢？

旷视科技：AI鼻纹识别

计算机视觉迈进新征程 “玩家”找出哪些新玩法？

近期，旷视科技推出AI鼻纹识别解决方案，这项解决方案最先应用于犬只身份认证。专用于宠物识别。有别于瞳孔、脸型等其他犬只认证方式，旷视选择鼻纹作为识别的关键特征。与人类指纹类似，犬类鼻纹具有唯一性与稳定不变性，即不存在鼻纹完全相同的两只犬、同一只犬的鼻纹亦不会随着成长而改变。主人只需对准犬鼻进行简单的抓拍或者视频录像，系统通过犬鼻检测，定位出鼻纹关键点，将提取到的鼻纹深度图信息汇入后台数据库，更可为犬只生成一张专属的身份证。目前，旷视鼻纹识别技术能达到犬只的1：1比对，在误识率为万分之一的情况下，试点场景中准确率95％；

极链科技：视频识别

计算机视觉迈进新征程 “玩家”找出哪些新玩法？

目前视频人脸识别还有很多的困难与挑战，如视频图像质量差、人脸图像小灯问题，极链科技提出了以四模块对场景中的人脸进行识别。

1．视频结构化，将视频用镜头分割。通常采用全局特征和局部特征相结合的方法。全局特征检测全局颜色的分布突变，然后借用局部特征获得的人脸识别的跟踪结果、跟踪轨迹的断续来判断视频是否具有镜头切换。跟踪来判断镜头切换有一个很大的优点，因为后续的步骤也会采用相似的算法，所以这一步骤所需的算法是可以重复使用的。

2．人脸轨迹提取。完成了镜头分割以后，就可以分割好的单一镜头里进行人脸轨迹提取。在轨迹提取的算法上，同样要考虑准确率和速度的指标。要实现速度和准确率的平衡，可以有以下两种途径：一是间隔采样or逐帧处理，二是检测＆跟踪的配合。

3．人脸识别。有了人脸轨迹之后，就可以开始进行人脸的识别了。但是在将人脸数据输入深度网络之前，还需要对其进行必要的变换和处理。其中一部分变换在针对人脸这一部分非常重要，尤其是在消费级视频里，那就是人脸的对齐。人脸对齐是利用人脸的特征点检测定位，将各种姿势的人脸图像还原矫正为正脸的过程。在算法框架中，需要加入人脸质量评估的算法，以过滤低质量的人脸图片，保证人脸数据的准确率。在样本足够的前提下，可以利用训练得到的模型对人脸样本进行特征提取。测试的时候，在视频中检测得的人脸后，将其输入到生成的特征向量里，与人脸互动的特征向量进行匹配，从而找到在特征空间中最接近的一个样本。

4．识别结果融合。以上提到的人脸识别都是针对单帧识别的图片而言的，之前说到的系统识别结果都是针对整个人脸轨迹而言。因此，最后需要将人脸识别的结果与整条人脸轨迹融合起来，得到整个轨迹的识别结果。

商汤科技：面部图片处理

计算机视觉迈进新征程 “玩家”找出哪些新玩法？

近日，来自商汤科技，香港中文大学以及香港大学的研究团队提出了一种称为MaskGAN的新型框架，可实现多样化和交互式的面部操作。其主要观点是语义掩模作为灵活的面部操作的适当中间表示，使其具有保真度。MaskGAN有两个主要组成部分：

1．密集映射

2．编辑行为模拟训练

具体而言，密集映射网络学习自由形式的用户修改掩码和目标图像之间的样式映射，从而实现不同的生成结果。

以色列魏茨曼科学研究院：图像分离

本月，以色列魏茨曼科学研究所的研究人员开发出了一项名为Double－DIP的新技术，该技术能让系统在没有大量训练数据的情况下，通过深度学习来对图像进行编辑，分离人们在图片中想要的和不想要的部分。该研究基于一项名为DIP（Deep Image Prior）的混合图像恢复技术，因此研究人员将他们开发的新分离图像方法称为Double－DIP。DIP技术的研究成果已于美国时间2018年7月18日提交在arxiv上，名为《图像恢复的混合稀疏先验学习：深度学习与稀疏编码的结合（Learning Hybrid Sparsity Prior for Image Restoration： Where Deep Learning Meets Sparse Coding）》。

吕贝克大学：医学图像生成新方法

当前，GAN应用于医学研究还面临一项重大挑战。深度学习算法需要对高分辨率图像进行训练，才能产生最佳预测，然而合成这样的高分辨率图像，尤其是3D图像，需要大量的计算能力。来自吕贝克大学医学信息学研究所的研究人员提出了一种新方法，可以大大降低硬件的配置要求。研究人员把图像生成的过程分解为几个阶段：首先利用GAN生成低分辨率图像，然后在正确的分辨率下每次生成一小部分的细节图像。通过实验，研究人员发现这种方法不仅生成了逼真的高分辨率2D和3D图像，而且无论图像大小，支出费用都保持不变。

小结：

在深度学习技术出现之前，很多应用都遇到了瓶颈，进步很慢，每年只有大概的精确性提升。但随着深度学习的进步，计算机视觉的发展经历了一个巨大的飞跃，技术的不断升级也催生出了一系列跨行业的应用。随着主流的科技巨头入场，计算机视觉领域已经热闹非凡，但如果想要开创出一些新的应用获奖应用能力再进行提升，恐怕还有不短的路需要走。