日报标题:计算机视觉进入瓶颈了?还大有搞头呢
其实这个问题也是我近段时间一直在思考的问题. 昨天刚在组里做了个 ECCV'16 Recap, 整理一下思路, 来尝试抛砖引玉.
我的观点是:计算机视觉在人工智能和深度学习的大背景下方兴未艾.
这里进入瓶颈期的,可能是一些计算机视觉的经典问题,如物体识别和检测(人脸,行人,物体,场景 etc).但是如果能死磕这些经典问题,往往能带来质的突破,比如说对于 ImageNet 物体识别 GoogLeNet 之后,大部分人应该都不会想到还有 ResNet 这种牛逼网络的出现:).计算机视觉这个领域本身,我觉得是正在蓬勃发展, 经典问题得到了更好的解决, 新的问题也不断涌现.
如果把 Deep Learning 进入 CV 的 2012 年作为新时代的开始,我自己是从旧时代来的人.对于从旧时代过来的人,现在无疑是 CV 以及 AI 最好的时代.我自己当年是看着 Dahua Lin 的 blog,以及 @Filestorm 和 @田渊栋在 SJTU 饮水思源 AI 版的论战进入 CV 和 AI 研究圈子的(这里特别感谢三位师兄当年的分享),那时候大家讨论的东西都是 graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的,也没有工作抢着放 arXiv 的传统,也没有满大街的 open source libraries. 每年 CVPR 接收的论文到现在的 1/2 都不到. 每次开会前 proceeding 放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍.
现在的 CV 和 AI 研究其实是变得越来越扁平快了.随手可得的 open source libraries 和 pretrained models, 互联网上各种分享的学习资料和经, 便宜的 GPU 计算资源, 以及百花齐放的研究方向,都使得新入行的生猛年轻人能很快倒腾出新东西. 发表 CVPR, NIPS, AAAI 等顶会文章也不再是难事. 论文数量和研究方向也是繁多. 已经很难 follow.
现在很多时候, 我觉得做 CV 的研究更像是在拼工程能力, 而不是拼 insight 和积累了. 后来的人也许并没有多少动力和精力去学习和了解之前的经典. 这也是我担忧的地方. 但时代造人, 这些也是无可厚非的, 毕竟我们希望更多有闯劲的年轻人进入 CV 和 AI 圈子, 一起大炼钢:). 争先放 arXiv, 开源 code 等无疑加速了研究的迭代速度, 有更大的可能性激发出新的研究方向和成果. 大公司们(Google, Facebook, Amazon)以及诸多 startup 们, 也都虎视眈眈地渴望着更多更好的研究工作出现.
另外, 如果硬要我说几个 CV 目前有肉容易啃的方向, 那我就大致提提(注:这些方向大致都偏纯学术,有什么商业价值我并不是怎么关心):
1. Robotics (or Simulation Graphics)+Vision. Robotics 那边的人普遍比较保守, 更执着于传统 template matching 之类的传统方法. 这里有个段子, 我们 MIT 机械工程系 robotics 方向的大牛教授 John Leonard 很久以前评论 Computer vision, 直接说你们'CVPR'里面的各种论文, 就是 Computer Vision and Precision Recall. 什么意思大家应该能理解:). 不过在 deep learning 开始真正 work 的时代, 他这句话应该不太适用了(笑). 回到正题, Robitics 本身是块非常大的饼, 很多问题和方法都可以用 deep learning (CNN + Deep Reinforcement learning) 重新解决. 偏 Robotics 的话, 大家可以留意一下 Berkeley 的大红人 Sergey Levine 最近的工作(Sergey Levine). 偏 Vision 的话,可以看看 CMU 的大红人 Abinav Gupta 的 ECCV paper Curious Robot (https://arxiv.org/pdf/1604.01360v2.pdf). Jianxiong Xiao 之前主打的 3D deep learning (http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf)也可以算在这个里面,他们团队和 MIT 团队最近搞了个 Amazon Pick challenge, 模型和方法还有点意思(MIT-Princeton Vision Dataset for the APC 2016). 不过 Xiao 已经下海经商, 不知道还会不会 actively publish. 现在各大公司和 startup 猛搞的 autonomous drive, 也可以放在这个方向之下.
最近我还留意到一个非常有潜力的方向 Simulation+Vision. 我觉得有两个具体方向,一个是利用 graphics 里面的 rendering 仿真技术,生成大量数据.这些数据因为是生成出来的,任何 ground-truth 都有,而且要多少有多少, 是获取训练数据的一个捷径.CVPR'16 有篇做 synthetic image dataset for semantic segmentation of urban scene(http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf).另外一个方向是结合 graphics 中的 simulation,利用 deep reinforcement learning 等 active learning 的算法可以无监督/弱监督训练出 agent model,这里就不仅限于纯 CV 了.DeepMind 和 OpenAI 在猛搞这个方向.偏 vision 的话大家可以参考下 Allen Institute 这篇(https://arxiv.org/pdf/1609.05143v1.pdf).
2. Generative visual models. 目前大部分的模型都是 discrminative model, 给定 input, 然后识别 label. 但这个故事的另外一半其实是 generative model, 给定 label, 然后生成图片. generative models 是一个很有潜力的大方向. 这里的最新进展一方面是基于 GAN (https://arxiv.org/pdf/1511.06434v2.pdf) 所带来的一种训练图片生成的新思路, 也包括一些基于传统 image model, 如 MRF 和 CRF 在 deep learning 的新思路下面进行重新理解. DeepMind 的这篇 PixelCNN(https://arxiv.org/pdf/1606.05328v2.pdf), 最近 Zhirong 和 Dahua 的挺不错的 ECCV 论文(http://dahua.me/papers/dhlin_deepmrf.pdf). 个人觉得 Varionational Autoencoder 也是个蛮漂亮的模型, 这里有篇关于 VAE 的最新的 tutorial 还不错(https://arxiv.org/pdf/1606.05908v2.pdf). 以后 deep learning 跟 bayesian model 的结合也会是个颇具潜力的方向.
3. Multimedia Computer Vision. 其实人的感知系统本身就是多模态的, 视频和声音共同结合.Video analysis 不再局限于 action recognition, 对内容本身有更深的理解. 比如说最近的 MoiveQA (MovieQA), Visual Anticipation prediction (http://web.mit.edu/vondrick/prediction.pdf
). 另外, sound 也是一个大家普遍忽略掉的一个东西. 大家可以看看我们组 Andrew Owen 的两个蛮有意思的工作 ECCV'16 Ambient Sound Provides Supervision for Visual Learning (https://arxiv.org/pdf/1608.07017.pdf), CVPR'16 Visually Indicated Sounds (Visually Indicated Sounds). 多模态来研究 vision 是个大趋势.