AI一周热闻：滴滴顺风车全国下线；王斌加盟小米；特斯拉放弃私有化

原创 AI前线小组 AI前线

作者 | Jack Clark

译者 | 无明

整理 | Debra

编辑 | Vincent

AI 前线导读：

- NLP 大牛王斌加入小米，任 AI 实验室 NLP 首席科学家

- 人类选手大败 OpenAI Five

- 滴滴顺风车全国下线，程维、柳青道歉

- 特斯拉放弃私有化，马斯克打脸来得太快

- 通过添加更多对象来欺骗对象识别系统

- 通过玩拼图游戏更好地进行视频分类

- 腾讯、北大联合研究将监视对象迁移到现实

- 使用 QuAC 教会计算机讨论问题

- 100 余主机运行 ROS，机器人和互联网安全引担忧

- 通过多损失函数更好地重新识别人类

- AI 算法不够好，可能是因为缺乏好奇心

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

NLP 大牛王斌加入小米，任 AI 实验室 NLP 首席科学家

8 月 28 日，小米新经济研究中心发布微信文章称，中国科学院信息工程研究所研究员、博士生导师王斌已于 8 月 20 日正式加入小米集团，任 AI 实验室自然语言处理（Natural Language Processing，NLP）首席科学家，负责自然语言处理基础平台的构建及前沿技术的探索与创新。

入职小米后，王斌仍将担任中科院信工所信息检索团队客座研究员、博士生导师。

小米集团人工智能与云平台副总裁崔宝秋表示：“王斌博士的技术理念和研究领域与小米非常契合，非常高兴能够邀请王博士加入。我们也欢迎更多的 AI 人才到小米工作。”

王斌表示：“我是一个米粉，这次能够加入小米很荣幸。希望未来能够与国内外学术界、企业界的 AI 研发者一起，为用户带来更多科技的乐趣！”

人类选手大败 OpenAI Five

OpenAI Five 在上周的温哥华国际赛上对阵 Dota 2 玩家，输掉了两场比赛。在这两场比赛中，前 20 到 35 分钟都有很好的机会获胜。与之前的基准测试相比，这两场游戏是与明显有优势的人类玩家对战，使用了由第三方提供的英雄阵容，并取消了主要限制（大多数专业人士认为的“真正的 Dota” 游戏玩法）。从整体上来看，OpenAI Five 在反应速度、计算精准的、操作等方面叫人类选手占有优势，但在团队策略、灵活性和应对突发情况的能力稍逊人类。

进一步阅读：https://blog.openai.com/the-international-2018-results/

滴滴顺风车全国下线，程维、柳青道歉

针对日前温州乐清市女子乘坐滴滴顺风车遇害事件，滴滴出行决定 8 月 27 日零时起全国范围内下线顺风车业务，并免去黄洁莉的顺风车事业部总经理和黄金红的客服副总裁职务。

8 月 28 日，滴滴出行创始人程维、总裁柳青发布道歉声明称，滴滴不再以规模和增长作为公司发展的衡量尺度，顺风车业务模式重新评估，在安全保护措施没有获得用户认可之前，无限期下线。

对此，有网友表示并不买账，称滴滴在事故发生后道歉已成“套路”，安全监管问题仍然没有切实解决。

特斯拉放弃私有化，马斯克打脸来得太快

8 月 25 日，马斯克在特斯拉官网上发布公开信称，在考虑了所有因素后，他认为不再进行私有化交易是更好的决定，特斯拉将放弃私有化。

由于特斯拉宣布放弃私有化，8 月 27 日，其股价在美股再创新高之际逆市下跌 1.10％，收于每股 319.27 美元。

特斯拉公司发布私有化提案后，27 日美国三大股市大涨，并且标普 500 指数、纳斯达克指数双双刷新历史新高，马斯克放弃私有化消息一出，特斯拉股价逆市下跌。

分析人士认为，马斯克的私有化计划缺乏足够资金支持，并且大部分股东也对私有化持反对态度。目前，美国证券交易委员会正就马斯克这一举动是否违规进行调查。

通过添加更多对象来欺骗对象识别系统

约克大学和多伦多大学的研究人员演示了如何通过在图片中添加更多对象来混淆常用的对象检测系统。他们的方法不依赖于任何对抗性样本之类的东西，而是通过向场景中添加新对象或者复制场景内的对象。

测试：研究人员使用来自 2017 版 MS-COCO 验证集的图像测试了使用 Tensorflow Object Detection API 训练的模型。

结果：测试表明，当图像中的对象被移动到图像的不同位置或彼此重叠时，大多数常用的对象检测系统都会失效。测试还表明，往场景中添加新对象可能会导致其他负面影响，例如，对象会“切换标识、边界框或完全消失”。

谷歌的缺陷：研究人员将一些图像上传到谷歌 Vision API 网站，收集了少量的定性数据，他们发现，API“没有检测到任何对象”。

非局部效应：一个更令人不安的发现与非局部效应有关。一项针对谷歌 OCR 功能进行的测试表明：“放置在图像中两个不同位置的键盘会导致对右侧标志中的文本进行不同的解释。图像顶部的识别输出是“dog bi”，而底部的识别输出是“La Cop”“。

进一步阅读：https://arxiv.org/abs/1808.03305

通过拼图游戏更好地进行视频分类

来自佐治亚理工学院和卡内基梅隆大学的一项研究表明，拼图游戏可能是一种可以让网络熟悉数据并为其提供训练任务的方法。他们演示了如何在训练过程中通过将视频切片为单独的拼图碎片，然后跟踪神经网络以预测如何将它们拼凑在一起，从而达到改进视频识别性能的目的。网络学习在这一过程中需要解决两个问题：正确拼接被扰乱的视频帧，并以适当的顺序将帧连接在一起。

截割片块：研究人员通过将每个视频帧分成 2x2 网格补丁的方式来剪切他们的视频，然后将这些帧中的三个拼接成元组。他们指出，在空间和时间上，总共有 12 个!（479001600）种方式扰乱这些补丁的顺序。他们实现了一种方法，能够智能地将这个大型组合空间缩小到一定范围内。

测试：研究人员认为，将网络训练成能够在视觉和时间位移方面正确解读这些视频片段，他们将获得更大的原始能力来分类其他视频。他们在 UCF101（涵盖 101 个动作类别的 13,320 个视频）和 Kinetics（大约 400 个类别，每个类别 400 多个视频）数据集上训练他们的视频拼图网络，然后在 UCF101 和 HMDB51 上对其进行评估（大约 7,000 个视频，涵盖 51 个行动类别）。

迁移学习：研究人员指出，使用较大的动力学数据集进行预训练的系统比在较小的 UCF101 上训练的系统能够更好地进行泛化。他们还通过使用不同的方式（旨在最小化过度拟合）训练 UCF101 来测试这个假设，但仍然发现了相同的现象。

结果：研究人员发现，当他们在 UCF101 和 HMDB51 数据集上对网络进行微调时，与其他无监督学习技术相比，他们能够获得更好的结果，不过准确度低于监督学习方法。他们还在 PASCAL VOC 2007 数据集上获得了接近 SOTA 的分类准确度。

进一步阅读：https://arxiv.org/abs/1808.07507

腾讯、北大联合研究将监视对象迁移到现实

腾讯 AI 实验室和北京大学的研究人员演示了如何使用虚拟环境“模拟主动跟踪，节省了人工标记或反复试验的高昂成本”。研究人员在研究过程中使用了两种环境：VIZDoom 和虚幻引擎（UE）。主动跟踪的任务是锁定场景中的对象（如人），当对象在场景（拥挤的购物中心或公园等）中移动时持续跟踪它们。

结果：他们写道：“我们发现，从模拟环境获得的跟踪能力可能可以迁移到真实场景中。令我们感到意外的是，受过训练的追踪器显示出良好的泛化能力。在测试过程中，它表现出了强大的对物体移动路径、物体外观、背景和杂物的主动跟踪能力“。

他们是如何做到的：研究人员使用一种关键技术将模拟转变为现实：领域随机化。领域随机化是一种技术，你可以将多个变体应用于环境以生成要训练的其他数据。为此，它们会改变实体的纹理，以及这些实体移动的速度和轨迹。他们通过奖励的方式来训练代理，相当于将目标保持在一个距离不变的视野中心上。

迁移学习：那么，在模拟器中训练有多大用处？这要看模拟中学到的系统是否可以转化为现实——这是其他研究人员一直在做的事情（比如 OpenAI 所做的工作或 CAD2RL）。研究人员通过在更逼真的虚幻引擎环境中训练得出的模型来测试这种迁移能力，然后在 VOT 数据集上进行评估。他们发现，受过训练的系统会显示每个帧的动作建议（例如向左移动或向右移动），与将被跟踪目标放置在视野中心的移动一致。

在真实机器人上进行测试：他们还通过在真实机器人上安装系统来执行更全面的泛化测试。这有两个重要因素：增加训练数据以帮助将学习迁移到现实世界中，以及修改动作空间以更好地解释真实机器人的运动（使用离散和连续的动作）。

使用的硬件：他们使用轮式的“TurtleBot”，安装在地面以上约 80cm 的 RGB-D 摄像头是机器人的“眼睛”。

真实环境：他们在室内房间和室外屋顶测试性能。室内房间很简单，包括一张桌子、一面玻璃墙和一排栏杆。玻璃墙会产生倒影，这将有助于进一步测试系统的泛化性。室外空间要复杂得多，包括桌子、椅子和植物，以及多变的照明条件。他们测试机器人跟踪和监视在房间和室外屋顶上沿着预定路径行走的人的能力。

结果：研究人员使用 YOLOv3 物体探测器获取目标及其边框，然后使用离散和连续动作来测试追踪器。在大部分情况下，这个系统能够在室内和室外环境中跟踪目标，而在简单的室内环境中获得更高的分数。

进一步阅读：https://arxiv.org/abs/1808.03405

使用 QuAC 教计算机讨论问题

如何设计更好的会话代理（聊天机器人）？华盛顿大学艾伦研究所、麻省大学阿默斯特分校和斯坦福大学的研究人员提出了一个想法：教计算机进行开放式的问答对话。为此，他们设计并发布了一个名为 QuAC（Question Answering in Context）的新数据集和任务，其中包含大约 14,000 个 QA 对话和 100,000 个问题。

数据集结构：QuAC 的结构可以让两个代理之间展开对话，一个是老师，一个是学生。老师可以看到维基百科的全文，学生可以看到标题部分。学生的目标是尽可能多地了解老师所知道的内容，并且可以向老师提问。老师可以回答这些问题，也可以提供鼓励性的结构化反馈，告诉学生继续或不要继续跟进，在适当的时候不提供答案。

结果：在基于很多简单的基线测试过他们的数据集之后，研究人员进一步基于一些算法基线测试他们的数据集。他们发现，表现最佳的是 SQuAD 模型的重新实现，这个模型通过自我关注和情境化嵌入增强了双向注意力流。这个模型叫作 BiDAF++，在 60％的问题和 5％的完整对话中获得与人类等效的表现，这表明，解决 QuAC 问题可以成为开发更高级语言建模系统的大前提。

进一步阅读：https://arxiv.org/abs/1808.07036

100 余主机运行 ROS，机器人和互联网安全问题突出

当我们的世界中出现越来越多功能强大的机器人时，我们需要保护这些机器人免受黑客入侵。布朗大学计算机与科学系的一项研究表明了这项任务有多么的艰巨。研究人员扫描了互联网的 IPv4 地址空间，发现了 100 多个公共可访问的主机正在运行 ROS，即机器人操作系统。

他们写道：“在我们发现的节点中，其中有一些连接到模拟器（如 Gazebo），其他的似乎是真正的机器人，它们能够远程移动，对机器人及其周围物体都带有危险性。这次扫描真是令人大开眼界。我们还扫描到了我们自己的两个机器人，一个 Baxter 机器人和一个无人机。我们并没有在公共互联网上公开它们，但如果使用不当，它们都有可能造成人身伤害”。

无处不在的机器人：研究人员使用 ZMap 在几个月内对 IPv4 空间进行了三次扫描。他们写道：“每次 ROS 扫描都发现了 100 多个 ROS 实例，它们来自 28 个国家，超过 70％的实例使用了属于各种大学的网络或研究机构的地址。每次扫描都会发现 10 多个暴露的机器人…在我们的扫描中发现的传感器包括相机、激光测距仪、气压传感器、GPS 设备、触觉传感器和指南针”。他们还发现了几个暴露的模拟器，包括 Unity 游戏引擎、TORCS 等。

真正不安全的机器人在互联网上：研究人员发现的潜在的不安全机器人平台包括 Baxter、PR2、JACO、Turtlebot、WAM，以及 DaVinci 手术机器人（这个可能是最值得我们担心的）。

渗透测试：研究人员在华盛顿大学实验室对这些机器人进行了渗透测试。在测试期间，他们能够访问机器人的摄像头，让他们查看实验室的图像。他们还可以通过机器人远程播放声音。

进一步阅读：https://arxiv.org/abs/1808.03322

通过多损失函数更好地重新识别人类

伦敦玛丽女王大学计算机视觉组和创业公司 Vision Semantics Ltd 的研究人员发表了一篇关于视频跟踪和分析的论文，演示了如何通过人工智能技术自动查找行人，当行人出现在城市的其他地方时能够重新识别出他们。

技术：他们将他们的方法称为“无监督深度关联学习（DAL）”。DAL 通过两个主要的损失函数来帮助其学习：本地时空一致性（从单个摄像头中识别一个人）和全局循环排名一致性（从不同摄像头中识别一个人）。

“这种方案使得深度模型能够从学习本地一致性开始，同时逐步发现更多受全局一致性影响的跨摄像头轨迹，逐步增强判别性特征学习”。

数据集：研究人员在三个基准数据集上评估他们的方法：

PRID2011：从两个摄像头收集 1,134 个“轨迹”，两个摄像头中共有 200 人。
iLIDS-VID：300 个人的 600 个轨迹。
MARS：从一个摄像头网络捕获的 1,261 人的 20,478 个轨迹，这个网络包含了 6 个近乎同步的摄像头。

测试：研究人员发现，当他们的 DAL 技术与 ResNet50 骨干配对时，可以在 PRID 2011 和 iLIDS-VID 数据集上获得最好准确度，在 MARS 上可以获得接近 SOTA 的准确度。具有 MobileNet 后端的 DAL 系统在 PRID 2011 和 iLIDS-VID 可以获得接近 SOTA 的准确度，在 MARS 上可以获得 SOTA 准确度。在性能方面最接近 DAL 的其他技术是 Stepwise，它在 PRID 2011 上的表现具有一定的竞争力。

进一步阅读：https://arxiv.org/abs/1808.07301

AI 算法不够好，可能是因为缺乏好奇心

加州大学伯克利分校和爱丁堡大学的一项新研究表明，将好奇心应用于 AI 代理可以带来令人惊讶的行为表现。在一系列实验中，带有好奇心的代理在大多数游戏中的表现胜过随机代理基线，并且这些系统在其他领域也表现出良好的性能。但这种能力是有代价的：好奇的代理容易被欺骗，例如把它们放在一个房间里，房间里的电视显示不同频道的静态图案——对于一个好奇的代理来说，这种类型的静态图案代表了多样性，而多样性是好奇心最好的诱惑，所以代理可能会掉入陷阱，无法摆脱电视静态图案的诱惑。

进一步阅读：https://arxiv.org/abs/1808.04355

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果你想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

英文原文：

https://jack-clark.net/2018/08/27/import-ai-109-why-solving-jigsaw-puzzles-can-lead-to-better-video-recognition-learning-to-spy-on-people-in-simulation-and-transferring-to-reality-why-robots-are-more-insecure-than-you-might-think/

如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

继续滑动看下一个