2019年6月18日,美国加州长滩,计算机视觉与模式识别大会主要议程如期开始。本次大会代表了全世界科技创新领域最重要的方向之一:计算机视觉。
自从诞生以来,计算机技术已经取得了巨大的进步。从算术开始,它进化出了新的计算模式和形式,现在它可以执行广泛的任务。但是,计算机感知到的关于世界的一切,仍然回到1和0的输入,这取决于预先设计的逻辑顺序。只要人们不教计算机,计算机就无法学习新的能力。
十几年前,少数科学家致力于一种叫做深度学习的技术,模仿人脑神经元的连接结构,在计算机上创建“人工神经网络”,最终取得了重大突破。通过深度学习,今天的计算机已经具备了很多新的能力,其中之一就是基于深度神经网络的计算机视觉——能够“看到”和“理解”现实世界,并基于这种逻辑进一步完成复杂任务的能力。
虽然这是一项极其精密复杂的技术,但计算机视觉的进步是所有人都可以享受的。
在美国,由计算机视觉驾驶的自动驾驶汽车已经在部分地区上路,承担了出租车的功能;在国内,广受用户喜爱的相机美颜滤镜app,就是基于计算机视觉的人脸识别能力。它学习和识别人脸的特征,自动修改脸型,放大眼睛,叠加妆容;视力也成为了欠发达地区的“医生”,诊断疾病,提出治疗方案,大大提高了人们的健康和生活质量。
计算机技术仍在不断发展,而CVPR是这些发展被公布、记录并为世界所知的最佳舞台。
今年,中国人成了这届最耀眼的明星。
大会主席团成员朱松纯教授在开幕致辞中透露,CVPR 2019收到了超过14,000名作者提交的5,160篇论文。根据作者所在国的统计,39%的论文来自中国,超过美国,遥遥领先于所有72个国家。
根据科技媒体机器之心的统计,中国已经连续两年成为CVPR论文的最大来源国。
这一数据并不反映CVPR 2019的最终结果。组委会今年最终收到了1294篇论文。今年的参赛总人数也超过了9200人,打破了自1985年首次举办以来的纪录。中国的参赛人数达到1044人,仅次于美国的4743人。
硅人参观了议程和展区,发现有很多黄皮肤说普通话的人,远远超过其他种族和语言的比例。中国参与者的热情,加上美国大量中国研究人员的参与,使得CVPR成为亚洲面孔的海洋。
虽然官方没有提供参与者的种族分类,但几乎可以肯定的是,中国人是CVPR参与者中最重要的组成部分。
一些网民在推特上表示,他们对中国的技术和公司更感兴趣,因为他们看到了中国提交的数量惊人的论文。
颁奖典礼作为大会的重头戏,成为中国优秀科研人员的重头戏。
CV2019最佳论文奖授予联合研究“NLOS形状重建的费马路径理论”。
这篇论文由美国、英国和加拿大大学的研究人员共同完成。第一作者辛书勉,卡耐基梅隆大学机器人学院博士生,Xi交通大学电气工程学士,CMU电气与计算机工程硕士。
这篇论文的题目听起来晦涩难懂,但实际上讨论了一个极其重要的问题:目前计算机视觉已经可以清晰地看到视野内的物体;对于人类来说,即使一个物体在一个角落后面,看不到它的全貌,他们也可以通过物体在其他表面上的反射和扩散投影,借助直觉来猜测这个物体是什么,看起来是什么样子。
在过去,机器不能像人一样做这些事情。
本文最重要的贡献是使机器获得了和人类直觉一样的能力,提取出极其有限的、零碎的、间接的光学信息,最终准确地重建出物体的原貌。
比如上图中的例子,摄像头和硬币被障碍物遮挡,直接视角只能看到硬币的侧面;该示例显示了相机和硬币之间的一张不透明纸。研究人员设计的计算机视觉系统,将硬币在可见表面的投影与几何光学原理相结合,最终可以重建出一个相当精确的硬币表面浮雕。
结果表明,用该系统重建的硬币表面浮雕与视场内直接观察的结果基本一致。
辛勉等人的这篇论文很有希望成为NLOS重建领域的重要研究基础。可见,在未来的日常应用场景中,本文将能够帮助计算机视觉驱动系统变得更加“智能”。例如,自动驾驶汽车将能够更准确地“看到”障碍物后面,从而提高决策能力,变得更安全。
CV2019组委会对这篇论文给予了高度评价:“这篇论文为NLOS重建做出了突出贡献。这是一篇理论优美、具有启发价值的论文,拓展了计算机视觉可能性的边界。”
第一篇论文是卡内基梅隆大学光学实验室的辛树勉。图片:CMU最佳学生论文奖授予“视觉语言导航的增强跨模态匹配和自我监督模拟学习”一文。第一作者是加州大学圣巴巴拉分校自然语言处理小组的王新。师从我校助理教授王威廉,毕业于浙江大学,获学士学位。
这项研究的主要内容是使机器人能够遵循自然语言指令进行视觉导航。
与上一篇论文类似,王新等人的这篇论文希望解决一个人可以轻松理解,但机器还不能控制的任务。机器人想要根据这个指令导航,前提是它有一个全球地图,这样就可以提前设置好路点,就像在即时战略游戏中一样。但是在本文的实验环境中,机器人并没有这样的地图。人类可以按部就班地听从命令,但这种能力对于过去的机器人来说太复杂,不现实。
王新等人提出了一个新的解决方案。简单来说,机器人可以识别当前所处的局部区域,从自然语言指令中关注相应的部分,导航,再次识别新的局部环境,关注指令中相应的部分,再次导航,从而到达最终的目的地。
这篇论文也得到了组委会的高度评价。据王威廉介绍,这篇文章是CVPR 2019年满分文章,在所有5160篇投稿文章中排名第一,被项目委员会和现场主席评审团确定为口头陈述论文之一。
一篇论文在所在领域的学术峰会上获得这样的待遇,对参与的研究人员来说是极大的奖励。
计算机视觉领域的开创性论文ImageNet在本次大会上获得了最高荣誉“Runjit Higgins Award”。这篇论文是由斯坦福大学李菲菲教授指导的中国研究员邓嘉在十年前发表的。
ImageNet项目的本质是一个大规模的标记图像数据库。每张照片中的物体,甚至物体之间的交互,都用单词或短语标记,这使得训练神经网络成为可能。目前,ImageNet论文在学术数据库谷歌学术上的引用次数已达11615次,在计算机视觉领域排名第一。
ImageNet的存在使更多的研究人员能够使用它来设计、训练和测试最新的计算机视觉技术。在李菲菲等人举办的ImageNet挑战赛中,涌现出了许多高分神经网络模型并引起轰动,推动了深度学习的进步。
有趣的是,当前许多论文往往使用高性能计算设备和全新的算法来实现出色的结果,而ImageNet实际上非常依赖“为人工智能工作的人”。为了建立这个数据集,研究团队密集使用了亚马逊的Mechanical Turk众包平台,并用真人手动标记图像。
ImageNet的作者被授予Langit Higgins奖图像鸣谢:Tony Peng/Synced邓嘉目前是普林斯顿大学计算机系的助理教授,领导该校的视觉和学习实验室,是该领域的知名学者之一。由于ImageNet、推动计算机视觉技术发展等诸多贡献,李菲菲也被视为当今人工智能领域的杰出人物。
回顾CVPR 2009,新出版的ImageNet没有进入主要议程。那只是一张不起眼的海报纸,限时和其他纸一起贴在展区中间展示,到了就撤。
ImageNet在其发布十周年之际被授予Award朗吉特·希金斯奖,这证明了它在计算机视觉领域的重要价值。
三篇获奖论文让奋斗在美国学术界第一线的中国学者迎来了一个光明的时刻。在大会的另一个“舞台”,大洋彼岸的中国科技公司也在扮演着更重要的角色。
根据大会官方信息,共有22家在中国注册的科技公司参加了CVPR 2019,在美国注册的拥有中国团队和资本背景的科技公司总数约为30家。在计算机视觉的学术研究和产业应用方面,许多世界领先的中国公司出现在CVPR 2019的展区,吸引了大量参与者驻足交流。
由于需要放下一辆卡车的车头,途胜未来会占据更大一部分的展区。这家总部位于加利福尼亚州圣地亚哥的公司目前正在亚利桑那州图森市附近的地区进行无人驾驶货运卡车的道路测试。其技术水平和路测经验在该领域名列前茅。
据NPR称,图森市将于今年5月底与美国邮政局签署协议,在达拉斯和凤凰城之间1000多英里的开放道路上测试无人驾驶卡车运输,为期两周。根据美国邮政局的官方数据,该机构隶属于美国政府,拥有近60万名员工和22万辆汽车。它是美国乃至世界上最大的民用舰队,年行驶里程超过12.5亿英里,约合20亿公里。
除了与美国邮政局合作,图森还将与亚利桑那州的皮马社区学院合作创建自动驾驶卡车司机课程和认证项目,以促进当地就业增长和升级。2017年,该公司发布了自动驾驶数据集,以帮助全球学者提高计算机视觉算法在真实驾驶环境中的性能。
阿里巴巴、腾讯、腾讯也来到了CVPR 2019现场,让来自世界各地的与会者有机会看到三家最具代表性的中国互联网科技巨头在计算机视觉领域的研究和产业应用进展,如开源深度学习框架、人脸识别、自动驾驶和无人商店解决方案等
三家公司的数十篇论文被纳入CVPR 2019,在职研究人员还担任了会议不同领域委员会的主席。
参考美国知名科技公司Google和微软的产学研互补方式,结合各自在中国互联网行业的技术需求,BAT在过去几年也成立了自己的前沿技术研究院:阿里达摩院有视觉实验室,腾讯有专攻计算机视觉的优图实验室,研究院在硅谷一直有很强的科研存在。
被称为中国计算机视觉“四小龙”之一的漠视,在本次CVPR大会上带来了最有趣的展示:在没有手柄的情况下,两名玩家用自己的身体作为“输入设备”,控制各自的角色在街霸游戏中互相打斗。
这项技术可以同时锁定两个玩家的面部,并跟踪他们的身体动作,而硬件只需要一台笔记本电脑和一个现成的常用网络摄像头。
尚科技的展示也颇具创意:摄像头捕捉体验者的面部,显示屏上梵高的自画像会相应地改变表情。
它的强大之处不仅在于人脸识别和表情跟踪,还在于神经图像风格转移,这是计算机视觉领域的热门技术。在临摹表情的同时,还能保留梵高原作自画像的独特风格。
滴滴出行在CVPR 2019年发表了许多论文并组织了实地研讨会,也在这段时间备受学术界和业界的关注。这是因为在CVPR 2019开幕前几天,在另一场机器学习顶级学术会议ICML 2019期间,滴滴宣布与今年图灵奖得主约书亚·本吉奥(Joshua Bengio)领导的加拿大研究机构Mila达成战略合作。
近年来计算机技术的快速发展,得益于深度学习作为一种基本方法所取得的重要突破,本吉奥是深度学习的创始人之一。由于他们从上世纪90年代至今的不懈研究和贡献,本吉奥的另外两位同时代人被合称为深度学习的三剑客,他们共同获得了2018年图灵奖,被称为计算机科学的诺贝尔奖。
公开资料显示,Bengio创办的Mila是迄今为止全球最大的大学级深度学习研究机构。而与这样的机构达成战略合作,不仅意味着滴滴的学术贡献潜力得到了世界级专家的认可,也标志着来自中国的科研创新力量已经踏上了全球舞台。
去年,滴滴建立了AI for Social Good共创平台,与十余所高校、科研机构和社会组织合作,在安全、健康、环境、无障碍等多个核心方向开展项目研究,包括绘制高清空气体质量地图,帮助解决环境问题,推动新能源解决方案和智能交通技术的融合发展,推出司机AI关爱助手等。
在本次CVPR筹备期间,滴滴还发布了大规模驾驶视频高清标注数据集D-City,并在此基础上举办了自动驾驶算法挑战赛。来自瑞典和中国的两支队伍获得了冠军。
Bengio表示,滴滴在AI使能社会的努力与Mila是一致的。“过去,Mila曾经是一个专注于基础科学研究的机构;在改变我们的思维后,我们的主要任务之一是产生能够对世界产生积极影响的研究。”
约书亚·本吉奥和滴滴出行技术合作总监吴国斌接受了采访。图片:杜晨/硅星目前,中国科技公司正面临全球技术禁运的逆风。美国商务部将多家中国公司加入美国公司技术出口目标限制名单;一些计划参加CVPR 2019会议的中国研究人员也因美国公民及移民服务局的签证批准而受阻。
位于加拿大的Mila是北美第一个向中国科技公司和研究人员敞开怀抱的顶级学术机构。本对滴滴的好感尤为可贵。
在采访中,Bengio告诉Silicon Star,“我们正处于一个关键的时间点,比历史上任何时候都更需要强有力的国际合作。否则,我们将永远无法在决定地球命运的重要问题上达成共识。”
他认为,不仅是学术界,各行各业都应该正视中国创新力量对全球科技整体进步的贡献。“Mila和滴滴的战略合作只是一小步。希望更多的学术机构能够站出来。”
这次战略合作,以及中国和中国企业在全球学术峰会上的出色表现,让这个夜晚不再沉闷。
免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报
举报