AI 前线导读:
- 马蜂窝被曝评论造假,估值或从 175 亿元缩水至 20 亿元
- 地平线发布旭日 2.0 芯片,正在进行 5-10 亿美元融资
- 苹果、AWS、超微要求彭博社撤回中国“间谍”芯片报道
- 腾讯开源 800 万字中文 NLP 数据集和智能运维学件平台 Metis
- DeepMind 开源强化学习库“松露”
- 特斯拉官网下架“全自动驾驶”选项
- 中科院利用大规模数据集探索先进“读唇术”
- 亚琛大学利用无人机收集现实世界中的驾驶数据
- 如何利用深度学习扩展监控搜索引擎?
更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)
最近,一篇名为《估值 175 亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏网络,指控在线旅游平台马蜂窝点评内容造假,把马蜂窝推上了风口浪尖。
10 月 22 日,马蜂窝发布回应, 承认存在部分评论造假,但点评内容仅占马蜂窝整体数据量的 2.91%,并称已对涉嫌造假点评的账号进行清理;此外,马蜂窝表示“针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益”。目前,马蜂窝已对曝光其评论造假的深圳乎睿数据有限公司提起诉讼。
深圳市乎睿数据有限公司就遭马蜂窝起诉回应,表示乎睿的分析内容都以事实和数据为依托,对于马蜂窝的声明和起诉“老实说团队现在还是懵的”,并表示曝光马蜂窝并非针对个人或企业,而是在建模过程中“顺手”发现的问题。
受此次造假事件影响,业界估计马蜂窝的估值将大幅缩水。今年 8 月份,马蜂窝份曾被曝计划融资 3 亿美元,估值或达 25 亿美元,约合人民币 175 亿元,还透露不久将在海外 IPO。根据 DCCI 互联网研究院院长、互联网专家刘兴亮估计,若抄袭、造假的质疑被坐实,马蜂窝一直以来强调的用户 PGC 神话将被打破,粗略估算其估值或将降到 20 多亿元,不再是独角兽。
据报道,在 2018 安博会上,地平线创始人 兼 CEO 余凯推出了新的 AI 芯片旭日 2.0,搭载了新的伯努利架构,同时还发布了基于此架构的 AI 边缘计算平台 xforce。余凯还透露,地平线正在进行新一轮融资,融资额度在 5-10 亿美元之间,投资方包括一家大型芯片公司和一家汽车厂商。
2018 年以来,地平线先后推出了高清智能人脸识别摄像机、Matrix 自动驾驶计算平台以及驾驶员行为检测系统 (DMS) 等基于地平线 AI 芯片核心技术的商业化产品。
数周前,《彭博商业周刊》报道称中国间谍恶意将芯片植入硅谷科技公司服务器,从而创建网上“隐形门”,大约 30 家美国公司受害,包括苹果、亚马逊和服务器商超微都在其中。上周,苹果 CEO Tim Cook 表示公司在进行数据检查之后发现并没有报道中所称问题,要求彭博社撤回不实报道。现在,亚马逊云服务商 AWS CEO Andy Jassy 和服务器厂商超微也站出来“附议”,要求彭博社撤回中国芯片相关报道。
近日,腾讯 AI 实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。该数据包含 800 多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。
在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,效果提升显著。
目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据集,并得到了广泛的使用和验证。然而,目前公开可下载的中文词向量数据集还比较少,并且数据集的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。腾讯开源的中文 NLP 数据集填补了这一空白。
不久之后,腾讯又开源了一个智能运维学件平台 Metis,当前版本开源的是时间序列异常检测学件,从机器学习的角度,主要面向运维工程师,解决运维中时序数据的异常检测问题。
根据官方介绍,Metis 是一系列 AIOps 领域的应用实践集合,主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。
官方文档显示,时间序列异常检测学件的应用场景分别是应用数据场景和应用案例场景,包括异常检测、特征提取、异常查询、标注打标、样本管理、模型管理六项功能。
中文 NLP 数据集下载地址:
https://ai.tencent.com/ailab/nlp/embedding.html
Metis GitHub 链接:
https://github.com/Tencent/Metis
10 月 18 日,DeepMind 开源了基于 TensorFlow 的强化学习库——TRFL,中文意为“松露”。
这一强化学习库旨在让智能体更加容易地集合,思路是模块化,强调灵活度,把造智能体想象成搭积木,许多关键的、常用的木块,比如,DQN (深度 Q 网络) 、DDPG (深度确定策略梯度),以及 IMPALA (重要性加权演员学习者架构) 都可以在这里集合,松露里包含了许多损失函数和运算,全部可以通过 TensorFlow 实现。
库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个 API,对开发者比较友好。而且 DeepMind 团队自身做研究,也严重依赖这个库,所以会持续对它进行维护,随时添加新功能。
松露数据库地址:https://github.com/deepmind/trfl/
10 月 21 日,特斯拉已经从公司官网的预订页面下架了长期以来提供的“全自动驾驶”选项。
马斯克曾在三年前声称,2017 年之前特斯拉将实现全自动驾驶,现在这个目标还未实现,实际上该公司的汽车目前只有在非常特殊的情况下才能自动驾驶,并且需要司机的持续监督。
这次特斯拉将全自动驾驶的宣传撤下,特斯拉 CEO Elon Musk 在 Twitter 上表示,这个选项给客户“造成了很大的疑惑”,将暂时“从菜单中删除”。特斯拉拒绝对此置评。
中国科学院与华中科技大学的研究人员创建出一套新的普通话“真实环境读唇”数据集与基准。这项读唇方法的出现为人们带来了新的感知能力,亦有望给人工智能系统注入新的活力。研究人员写道,举例来说,读唇系统适用于“听力障碍者、默片分析、视频验证系统中的活体验证等。”
数据集详细信息: 这套读唇数据集包含来自 2 千多位发言者的总计 74 万 5187 条不同样本,共分为 1000 个类别,其中每个类别对应于由一个或多个中文字符组成的普通话词汇章节,是已知的目前规模最大的词汇级读唇数据集,亦是唯一的公开大型普通话读唇数据集。
测试结果: 他们在该数据集上进行了三轮基准训练,分别为全 2D CNN、全 3D CNN(以 DeepMind 与谷歌创建的 LipNet 为模型,外加一套混合有 2D 与 3D 卷积层的模型。尽管在其它限制条件更多的数据集上获得了高达 90% 的准确率,但所有这些方法在新数据集上的表现都很差。研究人员使用 PyTorch 构建模型,并利用一台包含 4 块 Titan X GPU 与 12 GB 内存的服务器上进行训练。最终,这套新的中文数据集 LRW-1000 得出的五项最高基准准确率结果如下:
LSTM-5: 48.74%
D3D: 59.80%
3D+2D: 63.50%
重要意义:读唇这类系统的出现将给医学乃至监控等诸多领域带来极为重大的影响。而此类研究工作所带来的核心挑战之一,在于其本质上存在“双重用途”。正如研究人员在论文的引言中所提到,这项工作既可用于医疗保健用途,也可用于监控用途。社会对于此类通用型人工智能技术的处理态度,将对整个二十一世纪社会建筑的构建与发展产生深远冲击。同样需要强调的是,中国研究人员利用中文建立起大规模数据集的情况,似乎也意味着我们可以通过某些语言数据集的相对增长速度来判断对应国家对于人工智能技术的关注程度。
了解更多:LRW-1000: A Naturally Distributed Large-Scale Benchmark for Lip Reading in the Wild (https://arxiv.org/abs/1810.06990)
亚琛大学汽车工程研究所自动驾驶部门的研究人员创建出一套全新“HighD(高维)”数据集,用于捕捉德国高速公路上行驶车辆的真实活动。
无人机 + 数据: 研究人员利用大疆 Phantom 4 Pro Plus 无人机在道路上方创建数据集,从而收集科隆周边高速公路上车辆行驶中表现出的自然轨迹。该数据集共包含 11 万辆汽车的经处理移动轨迹,包括小汽车与货运卡车。这些数据集中有 16 个小时的视频,分布在 60 条不同记录当中。这些记录是在 2017 年至 2018 年之间的六个不同地点进行采集得到的结果,且每条记录的平均长度为 17 分钟。
增强数据集: 研究人员们还对与正常行驶轨迹不符的数据进行了额外分析,将车辆行为分类为不同的机动检测结果,具体包括随意驾驶、车辆跟随、关键制动以及变换车道。
HighD 对 NGSIM: 目前与 HighD 最类似的数据集为 NGSIM,这套数据集由美国交通部所开发。然而,HighD 中的车辆多样性与整体数据规模明显更高,不过车辆行驶的记录距离则更短——这主要是因为德国高速公路的车道数量不及美国。
重要意义: 数据对于现实世界中机器人平台(例如自动驾驶汽车)的发展很可能起着至关重要的作用。本文中概述的技术方案展示了我们如何利用新型技术成果(例如成本低廉的消费级无人机)实现大规模数据的自动化收集过程,从而帮助研究人员更轻松地采集并创建大型数据集。研究人员写道,“我们的计划是进一步提升数据集的规模,并通过额外的检测操作对其进行增强,从而为高自动化水平驾驶技术提供可靠的安全验证方法。”
数据集官网:https://www.highd-dataset.com/
GitHub 链接:https://www.github.com/RobertKrajewski/highDdataset
了解更多:The highD Dataset: A Drone Dataset of Naturalistic Vehicle Trajectories on German Highways for Validation of Highly Automated Driving Systems (https://arxiv.org/abs/1810.05642)
基于深度学习的技术方案从根本上改变了监控架构的建立方式。来自印度的研究人员发表一篇最新论文,其中提到如何利用深度学习扩展“人物搜索”的安全技术能力,即尝试在一组拍摄完成的监控图像中找到特定目标人物。
系统概述: 研究人员利用由微软 COCO 预训练完成的 Mask R-CNN 对 SOftBioSearch 数据集内的监控图像素材进行搜索,让人们可以按照目标人物的身高、肤色与“性别”(具体性别概念包含众多复杂的假设性定义,受篇幅所限这里我们不做深入讨论)找出正确的对象。
结果: 该算法共搜索 41 个目标人物,并正确找出了其中的 28 个。”虽然我们还无法确切了解其效能水平,但对于大多数监控案例而言,这样的结果似乎已经“足够好”。
重要意义:人工智能系统的部署将从根本上改变政府与民众间的关系,即赋予政府远高于以往的公民监督与控制能力。此次公布的新方法进一步强调了此项技术的灵活性,及其如何与人类分析师团队协同实现各类监督工作。也许我们很快就会听到来自情报分析社区的声音——抱怨深度学习带来的自动化方案取代了自己的工作岗位。
了解更多:Person Retrieval in Surveillance video using Height, Color and Gender(https://arxiv.org/abs/1810.05080)
作者 Jack Clark 有话对 AI 前线读者说:我们对中国的无人机研究非常感兴趣,如果你想要在我们的周报里看到更多有趣的内容,请发送邮件至:jack@jack-clark.net。
原文链接:
https://jack-clark.net/2018/10/22/import-ai-117-surveillance-search-engines-harvesting-real-world-road-data-with-hovering-drones-and-improving-language-with-unsupervised-pre-training/
如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!