请选择 进入手机版 | 继续访问电脑版


会员专区切换至【手机版】
找回密码
立即注册

切换本帖至【手机版】


作者: admin
查看: 170|回复: 2

主题标签Tag

搜索
最新资讯
开启左侧

[知识] 2018,一文看尽AI发展真相

[复制链接]
admin 发表于 2019-3-25 11:20:37 | 显示全部楼层 |阅读模式
查看: 170|回复: 2
<
2018,一文看尽AI发展真相(上)

【新智元导读】2018年还剩20天,人工智能的热度一点没减。除了下围棋、认人脸,人工智能究竟发展到了什么地步?汇总各领域学术论文最先进成果,今天,让我们来看计算机视觉和自然语言处理这两个领域AI进展的真实情况。

2018年,人工智能热度不减,成果不断。

虽然少了去年动辄“超越人类”的锐气,但“辅助人类”的人工智能,如今究竟发展到什么程度?就让我们在2018即将结束的时候,来一个简单的回顾。

抛开剂量谈毒性是耍流氓,抛开数据集和特定任务谈人工智能进展也一样。“state of the art.ai”是MIT和UNAM的学生做的一个网站,收进了目前最优的算法,涵盖了计算机视觉、游戏、自然语言处理、网络图和知识库、程序归纳和程序合成、音频处理、时间序列处理七个领域。

2018,一文看尽AI发展真相(上)

下面,我们就根据已经发表的科研论文,先来看看计算机视觉和自然语言处理这两大AI领域的情况。

计算机视觉

3D/3D Reconstruction

“3D”可以说是眼下CV领域最火的一个词。今年各家智能手机宣传里都提到了“3D结构光”。那么,3D视觉发展到了什么程度?

2017年的CVPR,MIT、马萨诸塞大学阿默斯特分校和谷歌DeepMind的研究人员展示了一项成果,使用自动编码器(VAE),构建了一个名叫SingleVPNet的框架,能从多个视角的深度图或其相应的轮廓(silhouette)学习生成模型,并使用渲染函数从这些图像生成细节精致的3D形状。

2018,一文看尽AI发展真相(上)

不仅如此,他们提出的框架还能通过综合不同视角的2D深度图(甚至在有遮挡的情况下),生成新的3D形状。

SingleVPNet在3D形状数据集SharpNetCore上取得了平均误差0.35的结果。换句话说,生成逼真的3D形状还有一段距离。

补充,SharpNetCore是ShapeNet的一个子集,目前包括55个常见对象类别(覆盖了计算机视觉领域常用的3D基准数据集PASCAL 3D+的12个对象类别),约有51300个独特的3D模型,每个模型都有手动验证的类别和对齐注释,由普林斯顿、斯坦福和丰田技术研究所(TTIC)的研究人员共同创建。

动作识别

动作识别指从视频中识别不同的动作,这个动作可能贯穿整个视频,也可能不会。动作识别是图像识别的扩展,涉及从多帧视频中进行图像识别,然后从每一个帧中聚集预测结果。

2017年的NeurIPS,CMU机器人学院的研究人员Rohit Girdhar 和 Deva Ramanan 利用注意力机制(Attentional Pooling),在保持网络复杂度和计算量基本不变的情况下,在三个静态图像和视频标准动作识别数据集上提升了动作识别的基准。其中,在MPII人体姿态数据集上取得了12.5%的相对改进。

2018,一文看尽AI发展真相(上)

不过,看绝对值,平均精度还停留在52.2个百分点上面。

人脸识别

根据美国国家标准与技术研究院(NIST)今年11月16日公布的结果,在被誉为工业界“黄金标准”的全球人脸识别算法测试(FRVT)中,依图科技以千万分之一误报下的识别准确率超过99%,继续保持全球人脸识别竞赛冠军。

千万分位误报下的识别准确率超过99%,意味着更多核心关键的安防场景被解锁。相比于去年同期,全球人脸识别性能提升了80%。

值得一提,在这份官方公布的报告中,中国人工智能公司实力展现,依图科技(yitu)、商汤科技(sensetime)、旷视科技(megvii)囊括了前十中的五席,加上排名第五的中国科学院深圳先进技术研究院(siat),中国团队已经超过半数,并稳稳“霸屏”前五,领跑全球人脸识别算法。

人体姿态估计

今年2月,上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线,是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。

今年9月,AlphaPose系统升级,采用 PyTorch 框架,在姿态估计标准测试集COCO validation set上,达到 71mAP的精度(比 OpenPose 相对提升17%,Mask-RCNN相对提升8%),同时,速度达到了20FPS(比 OpenPose 相对提高66%,Mask-RCNN相对提高300%)。

AlphaPose系统,是基于上海交大MVIG组提出的 RMPE 二步法框架(ICCV 2017论文)构建的,相比其他开源系统在准确率有很大提高,比OpenPose相对提高17%,Mask-RCNN相对提高8.2%。

升级后,各个开源框架在COCO-Validation上性能,时间在单卡1080ti GPU测出指标如下:

开源系统

准确率

平均速度

Openpose(CMU)

60 mAP

12 FPS

Mask-RCNN(Facebook)

67 mAP

5 FPS

Alphapose(SJTU)

71 mAP

20 FPS

图像分类

计算机在图像分类任务上的精度早已超越了人类,因此当前图像分类精度的最好成绩,往往是其他研究的副产物。ICLR 2017,谷歌大脑 Barret Zoph 和 Quoc V. Le 发表了“Neural Architecture Search with Reinforcement Learning”,他们用强化学习自动搜索神经网络结构,最终AI自己设计出的模型,在 CIFAR-10数据集上做图像分类取得了96.35%的精度。


2018,一文看尽AI发展真相(上)

或许令人意外,图像分类目前最好结果是 Facebook AI Research 的 Benjamin Graham 在他2015年Arxiv论文“Fractional Max-Pooling”中得到的,经过100次测试后在CIFAR-10上误差仅为3.47%。这篇论文提出了一种新的 fractional max-pooling 方法,降低了各种数据集上的过拟合。

图像生成

说到图像生成,那自然就是生成对抗网络(GAN)。

GAN在今年不断发展,今年ICLR DeepMind 提出的 BigGAN,可谓当前最强图像生成模型,在128x128分辨率的ImageNet上训练,BigGAN的 Inception 分数(IS)可以达到 166.3 ,Frechet Inception 距离(FID)9.6。


2018,一文看尽AI发展真相(上)


2018,一文看尽AI发展真相(上)


2018,一文看尽AI发展真相(上)

关于BigGAN更详细的介绍看这里。

未来GAN还能提升到什么程度,值得期待!

图像分割

是的,图像分割王者是何恺明等人2017年提出的Mask-RCNN,mAP值26.2。


2018,一文看尽AI发展真相(上)

2018年8月,密歇根大学和谷歌大脑的研究人员合作,提出了一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵,在图像中任意添加、改变、移动对象,并与原图浑然一体,实现真正的“毫无PS痕迹”。

虽然相关论文还未经过同行评议,但是根据上述研究人员在Arxiv论文汇报的结果,他们在图像分割上更胜一筹。

2018,一文看尽AI发展真相(上)


自然语言处理

分类/语义相似度/语法/电影评论/语义等价/问答/实体识别

BERT这个名字近来在NLP领域可谓是红红火火。

10月13日,谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。

谷歌团队的Thang Luong直接定义:BERT模型开启了NLP的新时代!

2018,一文看尽AI发展真相(上)

BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建。

如前文所述,BERT在11项NLP任务中刷新了性能表现记录!在此举出其中一项结果。

2018,一文看尽AI发展真相(上)

GLUE测试结果,由GLUE评估服务器给出。每个任务下方的数字表示训练样例的数量。“平均”一栏中的数据与GLUE官方评分稍有不同,因为我们排除了有问题的WNLI集。BERT 和OpenAI GPT的结果是单模型、单任务下的数据。所有结果来自https://gluebenchmark.com/leaderboard和https://blog.openai.com/language-unsupervised/

2018,一文看尽AI发展真相(上)

SQuAD 结果。BERT 集成是使用不同预训练检查点和微调种子(fine-tuning seed)的 7x 系统。


2018,一文看尽AI发展真相(上)

、CoNLL-2003 命名实体识别结果。超参数由开发集选择,得出的开发和测试分数是使用这些超参数进行五次随机重启的平均值。

总体而言,BERT模型在NLP领域中的多项任务取得目前最佳效果,包括

分类、语义相似度、语法、电影评论、语义等价、问答、实体识别等等。

常识推理

在常识推理方面(Commensense Inference),目前取得最先进水平的是Antonio Lieto等人于2017年发布的文章:Dual PECCS: a cognitive system for conceptual representation and categorization

当然,该篇文章的结果在概念分类准确率(Concept Categorization Accuracy)上目前最佳,为89;但在Dev和Test准确率方面,目前依旧BERT模型结果最佳,分别为86.6和86.3。

机器翻译

在机器翻译任务中(Machine Translation),目前取得最佳结果来自于Zhen Yang等人于今年4月在Arxiv上发布的文章:


2018,一文看尽AI发展真相(上)

该文章的算法主要结合了Transformer+BR-CSGAN,在BLEU上取得的评分结果为43.01,为目前最佳结果。

自然语言推断

在自然语言推断(Natural Language Inference)任务中,目前最佳结果来自于Yichen Gong等人于今年5月在Arxiv上发布的文章:


2018,一文看尽AI发展真相(上)

该论文采用的算法是DIIN,在准确率方面目前为89.84,目前处于最佳水平。

以上是计算机视觉和自然语言处理两个领域的最新发展情况。想要了解AI其它领域中各任务目前取得的最佳结果可以参考如下链接:

https://www.stateoftheart.ai/


主题推广




回复

使用道具 举报

 楼主| admin 发表于 2019-3-25 11:21:24 | 显示全部楼层
2018,一文看尽AI发展真相(下)

【新智元导读】2018年的最后一天,回顾 AI 技术发展,纵览一年 AI 事件。新智元创始人兼CEO杨静女士寄语:2019跨年之际,新智元继续与您一起探索不一样的天际线和地平线;穿越时空隧道,创造奇迹,突破 AI 极限!新智元感恩每一位 AI 智库专家、合作伙伴和人工智能产业链用户!预祝2019新年快乐!

再过几个小时,我们就将进入2019年。

新智元从2015年9月成立至今,一直聚焦AI行业,追踪业界、技术、学界的前沿发展。2018年12月,新智元微信公众号AI全产业链用户达35万。

上周,新智元发布了《2018,一文看尽 AI 发展真相》的上篇,在 state of the art.ai 网站收集的同行评议论文基础上,对目前为止 AI 在计算机视觉 (CV) 和自然语言处理 (NLP) 方面的 state-of-art 做了回顾。

在下篇当中,我们将介绍迄今 AI 在游戏、知识图谱和知识库、语音以及程序归纳和程序综合 (Program Induction & Program Synthesis) 方面取得的最优成果。最后,按照时间顺序,以全年AI事件纵览收尾。

游戏:AI攻克最难雅利达游戏,AlphaGo更强大!

说到“游戏”,自然是强化学习,有经典的雅达利 (Atari) 游戏和以国际象棋、围棋为代表的抽象策略游戏。

雅利达游戏:《蒙特祖玛的复仇》超越人类专家平均水平

雅达利游戏种类繁多,但基本都已被 AI 攻克。除了几个特别难的,比如:

  • 《蒙特祖玛的复仇》要求玩家找到金字塔里的宝藏,中途有各种陷阱和机关
  • 《陷阱》(PITFALL!) 玩家需要穿越丛林,克服众多危险,在20分钟内找到32个宝藏
  • 《私人侦探》(PRIVATE EYE) 玩家需要追踪线索,追回被犯罪分子偷走的物品,并将罪犯逮捕归案

上述游戏对人类而言都是不小的挑战,在 AI 界则被称为“强化学习 AI 噩梦或试金石”。在这种稀疏环境奖励游戏中,使用基础的贪婪算法几乎无法过关,因为在分离奖励的帧数中,AI 可能的动作轨迹呈指数级增长。例如,在《蒙特祖玛的复仇》中,获得第一个环境奖励大约需要移动100步,也就是10018个可能的动作序列。即使随机遇到奖励,如果这个信号在特别长的时间范围内存在,那么强化学习算法也难以稳定地学习。

2018年5月,DeepMind 宣布让 AI 在《蒙特祖玛的复仇》、《陷阱》和《私人侦探》这三大超难雅利达游戏中首次令人信服地超越人类水平,方法是让 AI 观看人类玩这些游戏的 YouTube 视频。

DeepMind 表示,他们提出了全新的自监督目标,让智能体能从视频像素中学习域不变表征,还描述了一种少数据模仿 (one-shot imitation) 机制,在整个空间嵌入检查点来指导智能体进行探索。“将这些方法与标准的 IMPALA 智能体结合,我们展示了首个在《蒙特祖玛的复仇》《陷阱》以及《私人侦探》上具有人类水平的 AI。”

2018,一文看尽AI发展真相(下)

雅利达游戏《蒙特祖玛的复仇》,因其稀疏奖励环境,被誉为最难雅利达游戏之一,2018年首次被AI 玩过超越人类水平。

DeepMind 的结果发表几周后,OpenAI 也发布博文,描述了另一种训练智能体完成蒙特祖玛复仇第一关的方法。这种方法也依赖于人类的演示,但与 DeepMind 的稍有不同。这里有详尽的技术分析。

2018年11月底,Uber 在官方博客上介绍了他们提出的 Go-Explore 算法,不仅轻松通关蒙特祖玛,而且玩到了159 级,获得超过 200 万分,平均得分超过 40 万分!

Go-Explore 无需人类演示,智能体从领域知识 (domain knowledge) 中学习,凸显了算法利用最小先验知识的能力。即使没有任何领域知识,Go-Explore 也在蒙特祖玛中得到超过 3.5 万分,是当时最优水平的三倍多。

2018,一文看尽AI发展真相(下)

无领域知识的 Go-Explore 与其他强化学习算法在《蒙特祖玛的复仇》中比较。图中的每一点都代表了不同算法的得分。Go-Explore 平均得分为 35410,是之前最好成绩的 11347分的 3倍多,略高于人类专家平均水平的 34900分!

策略游戏:AlphaZero自弈胜率大涨16.5%

2018年12月7日,DeepMind的最强棋类算法 AlphaZero 作为 Science 封面论文发表,正式引入学界和公众的视野。去年底,AlphaZero 横空出世,将日本将棋、国际象棋和围棋统统拿下:从零开始训练,2小时击败最强将棋AI,4小时击败最强国际象棋AI,8小时击败最强围棋AI (李世石版AlphaGo)。

就在几天前,DeepMind 又在 Arxiv 贴出文章,用贝叶斯优化将人工调参改为自动,AlphaGo自我对弈的胜率从50%涨到66.5%,进一步刷新了AI围棋实力,而其见解将有助于开发具有MCTS的新版本的AI对弈智能体。


2018,一文看尽AI发展真相(下)

作为优化步骤函数的观察值和最大预期胜率的典型值

语音:中文语音识别准确率达到新高度

语音识别

2017年8月底,微软语音对话研究小组在Switchboard语音识别任务中,将错误率从之前的 5.9% 再一次降低到 5.1%,达到当时的最先进水平。微软全球技术Fellow、语音对话研究负责人黄学东在微软官方博客上称,这意味着微软创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。

2018年,根据一篇发表在Arixv上的论文,The CAPIO 2017 Conversational Speech Recognition System,Kyu J. Han 等人宣布使用 Dense-LSTM 方法,在行业标准的NIST 2000 Hub5英语评估集上实现当前最佳性能。作者在论文中指出,他们还提出了一种声学模型自适应方案,通过在三个不同电话机上训练的5个系统上的RNN-LM重新校正和点阵组合,其CAPIO 2017语音识别系统分别在语音数据集 Switchboard 和 CallHome 上获得了5.0%和9.1%的词错率,这两者都是迄今英语语音识别方面文献汇报的最好的成绩。

2018,一文看尽AI发展真相(下)

在中文语音识别方面则出现了一个令人比较意外的结果,AI初创公司依图科技在年底宣布,他们在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%,相比原业内领先者提升约20%,大幅刷新现有纪录。

AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库,含有1000小时中文语音数据,由1991名来自中国不同口音区域的说话者参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

扬声器测量(Speaker Diarization)

语音领域顶会 ICASSP 2018,谷歌和CMU团队发表论文,汇报了他们在扬声器测量 (Speaker Diarization) 方面的进展。具体说,作者将基于LSTM的d矢量音频嵌入与最近在非参数聚类中的工作相结合,从而获得了最先进的扬声器二值化系统。

扬声器测量是指根据说话者身份将输入音频流划分为同类段的过程。它可以通过将音频流结构化为扬声器转弯来增强自动语音转录的可读性,并且当与扬声器识别系统一起使用时,通过提供说话者的真实身份。

在三个标准公共数据集 (见下) 评估结果表明,基于d矢量的二值化系统与传统的基于i-vector的系统相比具有明显的优势。在使用语音搜索领域外数据进行训练的情况下,模型在NIST SRE 2000 CALLHOME上实现了12.0%的错误率。


2018,一文看尽AI发展真相(下)


2018,一文看尽AI发展真相(下)


2018,一文看尽AI发展真相(下)

知识图谱和知识库

聚类

在聚类 (Clustering) 方面,根据 stateoftheart 网站,AI 做到最好的成绩是 Mukherjee 等人在 2017 年 NeurIPS 论文《论网络数据的聚类》中得到的。作者将网络概括为一个高维特征向量,然后对这些特征向量进行聚类。他们提出了两种方法,分别适用于有节点的网络和没有节点的网络。


2018,一文看尽AI发展真相(下)

在一系列结果中,错误率最低为 0 的情况下时间 25 秒,时间最短 2.7 秒的情况下错误率 0.1。

图 (Graph) 生成

至于图 (Graph) 生成,则是 IBM 研究院的 Tengfei Ma、Jie Chen 和 Cao Xiao 在今年 NeurIPS 发表的论文 Constrained Generation of Semantically Valid Graphs via Regularizing Variational Autoencoders 中,他们提出了一个变分自编码器的正则化框架,作为实现语义有效性的第一步。然后,专注于图的矩阵表示,并规范解码器的输出分布,以鼓励满足有效性约束。实验结果证实,与此前文献报道的其他方法相比,我们的方法在采样有效图的准确率要高得多。


2018,一文看尽AI发展真相(下)


具体说,他们所提出的方法,在 QM9 与 ZINC 两大数据集上,分别与此前最好结果相比,都得到了显著提升。

链路预测

今年的ICLR,Rajarshi Das 等人提出了一种名叫 Minerva 的算法,有效解决了回答关系已知但只有一个实体的问题。作者提出了一种神经强化学习方法,能够学习如何根据输入的查询条件在图中导航,从而找到预测路径。这种方法在几个数据集上获得了最先进的结果,明显优于先前的方法。

2018,一文看尽AI发展真相(下)


2018,一文看尽AI发展真相(下)

程序归纳与程序综合

在发表于今年 ICLR 的一项工作中,佐治亚大学和微软研究院的研究人员联合提出了一种叫“神经引导演绎搜索”(NGDS)的方法,这是一种混合程序综合技术,结合了符号逻辑和统计模型的优点。因此,NGDS 能通过构造生成满足所提供规范的程序,并且很好地概括了类似于数据驱动系统的看不见的样本。


2018,一文看尽AI发展真相(下)

论文作者提出的这一的技术,有效地利用演绎搜索框架,将神经元件的学习问题简化为简单的监督学习场景。此外,这可用现实世界数据,又可以利用强大的递归神经网络编码器。与最先进的系统相比,通过综合精确的程序,整体速度提高了12倍,准确率68.5%


2018,一文看尽AI发展真相(下)

当然,对于程序综合与程序生成,在条件程序生成领域,还必须提一下今年的EMNLP,Murali 等人提出的一个模型,结合深度学习和程序综合技术,能够自动学习将简单的手绘图转换为用 LaTeX 图形程序。

论文作者学习了一个卷积神经网络,后者能提出解释图的合理绘图基元,可以纠正深层网络所产生的错误,通过使用类似的高级几何结构来测量图形之间的相似性,并推断出图程序。总之,这是朝向智能体从感知输入中归纳出有用的、人类可读的程序又一进步。


2018,一文看尽AI发展真相(下)

2018 年人工智能大事件回顾

看完技术在聚焦产业。尽管AI技术为谷歌和Facebook这样的大公司的盈利颇丰,但今年,这些公司已经越来越意识到AI技术的一些陷阱:比如AI很容易陷入偏见,缺乏固定的技术道德准则,而且,过早地将AI技术引入现实世界可能是浪费时间。

今年关于AI技术应用的争议中,有很大一部分是由Uber自驾车事故致行人死亡事件引起的。此外,人工智能技术可能存在滥用的报道也引发了新的关注。

以下是新智元呈现的2018年AI大事件年度盘点,其中一些事件凸显出当前AI技术中存在的重要问题:

1月

  • 中国公司正在占领CES,官方数据显示,单是名字中含有“深圳”的参展公司就有482家,占了将近10%,算上其他来自中国的公司,2018年的CES已经成为“中国消费电子展”。
  • 教育部:人工智能进入全国高中新课标,2018秋季学期执行


2月

  • 美国国会举行关于AI技术的听证会,发言人警告称,AI领域长期存在偏见,特别是对有色人种的偏见。
  • 工业界和学术界专家于2月的一份报告中强调了AI技术在数字、物理和政治领域可能被武器化,并存在被滥用的多种方式。
  • 研究人员Joy Buolamwini和Timnit Gebru发表论文,显示AI面部识别的准确性在白人和有色人种间存在巨大差异。
  • 谷歌重拳开放Cloud TPU,GPU最强对手上线


3月

  • Uber实验性自动驾驶汽车在亚利桑那州撞死了一名行人
  • 中国两会:总理报告再提新一代人工智能
  • 体系结构宗师John Hennessy、David Patterson获图灵奖
  • 【新智元峰会】德国AI教皇盛赞中国人工智能,25位AI领袖强势打造中国新智极



2018,一文看尽AI发展真相(下)

4月

  • Facebook 20 亿用户数据均可能泄露,扎克伯格仍不打算辞职


5月

  • 谷歌首次出现集体请辞,抗议军方合作项目,300多名学者发联名信
  • 提升AI公平性的工具开始开发
  • Facebook发布用于识别数据偏见的工具,并开始测试相关算法


6月

  • 谷歌中止Maven军事合作,曾打算帮国防部监控地球建筑


7月

  • 马斯克联名2000多AI专家誓言禁绝杀人机器人


8月

  • Open AI完虐Dota2准职业玩家,推塔如割草
  • 六项世界第一!余承东发布7纳米“超级恐怖”芯片,麒麟980让世界颤抖
  • 亚马逊Alexa和微软Cortana完成整合,挑战苹果Siri


9月

  • 更多旨在提升AI公平性的工具面世,美国国会进一步关注AI公平性问题
  • Google和IBM陆续发布了用于识别数据偏见的工具。
  • 有国会议员致函FBI和平等就业机会委员会等联邦机构,询问它们是否制定了旨在缓解AI技术偏见的工具或政策。
  • 阿里成立独立芯片公司——平头哥
  • AI world 2018 世界人工智能峰会在北京举行
2018,一文看尽AI发展真相(下)

10月

  • 亚马逊打击有偏见AI的报道。路透社报道称,亚马逊正在测试一种对女性存在偏见的AI招聘工具。
  • NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类
  • MIT宣布10亿美元成立全新计算与人工智能学院,重塑70年来结构


11月

  • 新闻联播8分钟:中央强调AI要有“头雁”效应,要勇闯无人区
  • 北大建立人工智能新校区,规划用地1025亩
  • 谷歌无人车老大承认遥遥无期,全自动驾驶寒冬将至?

12月

  • 微软发表官方博文,推动对面部识别算法的偏见进行监管。
  • Science:AlphaZero达成终极进化体,史上最强棋类AI降临
  • 专家表示,AI背后社会科学基础并不像宣传的那样扎实,并提出了监管AI技术的意见。
  • 谷歌翻译声称,已在翻译中修复可能存在偏见的性别代词
  • 欧盟公布AI技术道德准则草案,同时实现了AI投资200亿美元的目标
  • AI Index 2018 公布
  • 世界最大AI创新应用园揭幕:首钢老厂区将变身新北京“AI World”


总体来看,2018年AI整个行业在中美及世界其他地区仍然呈现蓬勃发展的态势,但各国立法机构和行业团体对“奇点降临”和“终结者末日”等噱头话题的关注明显降温,而更多关注AI技术的贸然落地可能给政府和私营部门带来的潜在危害。

由于偏见或缺乏道德上的顶层设计,公众需要对AI的潜在缺点有更深入的了解,在这种思路的指引下,将AI研究快速转化为AI产品的路线,可能会在未来遇到更大的阻力。

在新智元年终微信群访谈“独见”中,小 i 机器人CEO朱频频表示,今年最大的 AI 产业事件是11月19日,美国商务部工业与安全局提出了一份针对关键技术和相关产品的出口管制框架方案,文件列出了14个考虑进行管制的领域,包括生物技术、人工智能、数据分析、量子计算、机器人、脑机接口等前沿技术。

“无论是长期的积极影响还是短期的负面影响,[对中国AI] 影响都是深远而巨大的。”朱频频说。

作为语音与自然语言处理领域的专家,朱频频认为谷歌BERT模型的推出是2018年最重要的学术新闻,“未来十年是NLP的黄金十年,即使不出现BERT模型,也会出现其他有效的NLP模型,”朱频频表示:“因为认识智能的发展是未来发展的趋势。”

此外,情感计算和交互以及AIoT等方面的发展也值得期待。

回复 支持 反对

使用道具 举报

 楼主| admin 发表于 2019-3-25 11:24:01 | 显示全部楼层

CMU、斯坦福等知名AI实验室、团队AI成果大盘点

新智元 2019-02-26 14:26:30


【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

【新智元导读】本文总结了2018年里,学术界各大AI大咖、知名实验室的杰出成果,包括Hinton、LeCun、吴恩达、谷歌、MIT、UC Berkeley等。

2018年,AI的发展可谓是大步向前。

这离不开学术界的实验室和科研团队不懈的努力。本文总结了2018年,各个AI大咖、知名实验室的杰出成果,包括Hinton、LeCun、吴恩达、谷歌、MIT、UC Berkeley等。

涵盖AI众多领域,可谓是AI发展的风向标。

Geoffrey Hinton

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

Geoffrey Hinton,被称为“神经网络之父”、“深度学习鼻祖”,他曾获得爱丁堡大学人工智能的博士学位,并且为多伦多大学的特聘教授。在2012年,Hinton还获得了加拿大基廉奖(Killam Prizes,有“加拿大诺贝尔奖”之称的国家最高科学奖)。2013年,Hinton 加入谷歌并带领一个AI团队,他将神经网络带入到研究与应用的热潮,将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术,并将BP算法应用到神经网络与深度学习。

Hinton在2017年的NIPS会议上提出的胶囊网路,基于一种新的结构,通过与现有的卷积神经网络(CNN)相结合,在一些图像分类的数据上取得了非常优越的性能,成为了2018年的发展新趋势。

2018年4月,Hinton 团队发布

《Large Scale Distributed Neural Network Training Through Online Distillation》(https://arxiv.org/pdf/1804.03235.pdf ),通过online distillation进行大规模分布式神经网络训练。该工作提出了Codistillation的概念,通过大规模实验,发现codistillation方法提高了准确性并加快了训练速度,并且易于在实践中使用。

在11月发表的《DARCCCetecting Adversaries by Reconstruction from Class Conditional Capsules》(https://arxiv.org/abs/1811.06969?context=cs )中,他的团队提出重构网络可以视作检测对抗性攻击的非常有效的方法:从获胜的顶层胶囊的身份和姿态参数中重构输入,以验证网络能够感知我们期望它从某个类的典型样例中感知的东西。

Yann LeCun

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

Yann LeCun 是美国工程院院士、Facebook前人工智能研究院院长、纽约大学Sliver教授,同时还兼职于科学数据中心,数学科学交流学院,神经科学中心,以及电子工程计算机系。他于2003年加入纽约大学,之后还在普林斯顿的NEC研究院短暂任职。在2012年,他创建了纽约大学数据科学中心,并担任主任。2013年底,他被任命为Facebook人工智能研究总监, 并继续在纽约大学做兼职教授。2015-2016年,他在巴黎法兰西工学院做客座教授。Lecun创立的卷积网络模型,被广泛地应用于计算机视觉和语音识别应用里,也因此他被称为卷积网络之父,是公认的世界人工智能三巨头之一。

2018年4月,Yann LeCun 等人发表了一篇针对未来实例分割预测的论文《Predicting Future Instance Segmentation by Forecasting Convolutional Features》(https://arxiv.org/abs/1803.11496)。该论文提出了一种预测模型,可通过预测卷积特征来对未来实例分割进行预测。

前不久,Lecun等人在论文《Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic》(http://arxiv.org/abs/1901.02705v1 )中提出通过随多个时间步骤展开环境动态学到的模型来训练一个策略的方法,同时明确地惩罚了两个成本:优化策略时的原始成本;表示训练状态离散的不确定成本。最后,研究人员使用大规模驾驶行为数据集对此方法进行了评估,结果显示能够从存粹的观察数据中有效学习驾驶策略,不去要环境交互。

Yoshua Bengio

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

Yoshua bengio,蒙特利尔大学(Université de Montréal)的终身教授,同时是蒙特利尔大学机器学习研究所(MILA)的负责人,是CIFAR项目的负责人之一,负责神经计算和自适应感知器等方面,又是加拿大统计学习算法学会的主席,是ApSTAT技术的发起人与研发大牛。Bengio在蒙特利尔大学任教之前,是AT&T贝尔实验室&MIT的机器学习博士后。他的主要贡献在于他对循环神经网络(RNN, Recurrent Neural Networks)的一系列推动,包括经典的neural language model,gradient vanishing 的细致讨论,word2vec的雏形,以及machine translation。Bengio是Deep Learning一书的合著者,且Bengio的”A neural probabilistic language model”论文开创了神经网络的语言模型 language model先河,里面的思路影响了之后的很多基于神经网络做NLP的文章。

9月份,Bengio 等研究者在论文《Learning deep representations by mutual information estimation and maximization》提出了 Deep INFOMAX(DIM)(https://arxiv.org/abs/1808.06670v2 )。该方法根据信息内容和统计或架构约束来学习表示,可用于学习期望特征的表示,并且在分类任务上优于许多流行的无监督学习方法。他们认为,这是学习好的和更有条理的表示的一个重要方向,有利于未来的人工智能研究。

10月份,Bengio 研究团队提出了一种称为 BabyAI 的研究平台,支持将人类加入到语言学习的基本循环中。BabyAI 平台由难度递增的 19 个层级组成。支持智能体获取具有丰富组合的合成语言,并提供了用于模拟人类教师的启发式专家。

NIPS2018中,Bengio的《Dendritic cortical microcircuits approximate the backpropagation algorithm》(http://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf ),介绍了一个简化的树突室的多层神经元网络模型,其中错误驱动(error-driven)的突触可塑性使网络适应一个全面性的期望输出。这个框架框架与最近观察到的大脑区域和皮质微电路结构之间的学习是一致的。

Bengio 等研究者在前不久的最新论文《Quaternion Recurrent Neural Networks》中,提出了一种新的四元循环神经网络(QRNN)以及相应的四元长短期记忆网络(QLSTM),将四元代数的外部关系和内部架构依赖性皆考虑在内。实验证明,与 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自动语音识别等实际应用中达到了更好的性能。

吴恩达Andrew Ng

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

吴恩达,华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller)。

2018年5月,吴恩达团队在MURA数据集上发起了一项深度学习挑战赛, 这个数据集是他们团队在2018年1月开源的一个骨骼 X 光片的大型数据集,总共有 40561 份多视图放射线影像。

7月的时候,该团队开发出了一种使用人工智能来预测病人死亡时间的系统,该系统可以为病人提供更好的临床关怀。研究人员提出了一种新的预报检验方法 Survival-CRPS,通过优化连续分级概率评分(continuous ranked probability core, CRPS)来提高预报的锐度(sharpness, 评价模式预测极值的倾向),同时保持预报的校准度(calibration, 评价模型预测值的数值大小和结局事件发生概率的大小是否一致)。这是科学界首次将最大似然法之外的评分方法成功应用于大型生存预测任务。

11月底,团队发布了一个名为CheXNeXt的X光诊断算法。与曾经的肺炎检测专门算法不同,该模型可以诊断14种疾病,包括肺炎、胸腔积液、肺肿块等等。在其中10种疾病的诊断上,AI都与人类放射科医生的表现相当,还有一种超过了人类。并且,AI的诊断速度是人类的160倍。团队说,这样的算法有希望填补医疗资源的短缺,也可以用来减少人类医生因为疲劳而导致的诊断错误。

11月28日,团队宣布在《公共科学图书馆》期刊发表关于膝关节磁共振成像的深度学习辅助诊断的最新研究。该团队表示,他们开发了一种算法来预测膝关节核磁共振检查中的异常,并测量了在解释过程中向放射科医师和外科医生提供算法预测的临床效用。

此外在年底的时候,吴恩达又发布了《AI 转型指南》,面向公司管理层,介绍AI产业转型的一些方法。

2019年年初,也就是前不久,他们斯坦福团队又在Nature Medicine上发表了一项研究,开发了一种深度神经网络,可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音,性能堪比心脏病医生,准确度高达83.7%,超过了人类心脏病医生的78.0%。

Ian Goodfellow

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

Ian Goodfellow,人工智能领域的顶级专家,因提出了生成对抗网络(GANs)而闻名,被誉为“GANs之父”。他从斯坦福大学获得计算机科学学士、硕士学位以及博士学位。毕业后,Goodfellow加入Google,成为Google Brain研究团队的一员。然后他离开谷歌加入新成立的OpenAI研究所。Ian Goodfellow 在OpenAI短暂工作后,于2017年3月从OpenAI重回谷歌Goodfellow最出名的是发明了生成性对抗网络,这是Facebook经常使用的机器学习方法。他也是Deep Learning教科书的主要作者。2017年,Goodfellow被麻省理工学院技术评论评为35位35岁以下的创新者之一。

2018年年初,William Fedus、Ian Goodfellow和Andrew M. Dai在ICLR 2018共同提交的论文中使用 GAN 和强化学习方法在 NLP 中做了自己的探索(https://arxiv.org/abs/1801.07736)

2018年7月,Ian等人提出一种新型对抗攻击(对抗攻击通常会使得神经网络分类错误),对神经网络重新编程,诱导模型执行攻击者选定的新任务。该研究首次表明了神经网络惊人的脆弱性和灵活性。(https://arxiv.org/pdf/1806.11146.pdf )。

8月的一篇论文中,和Augustus Odena共同提出了一种新方法覆盖引导模糊测试(coverage guided fuzzing,CGF),将其应用于神经网络的测试(https://arxiv.org/pdf/1808.02822.pdf ),该方法能够自动Debug神经网络。Goodfellow表示,希望这将成为涉及ML的复杂软件回归测试的基础,例如,在推出新版本的网络之前,使用fuzz来搜索新旧版本之间的差异。此外开源了名为TensorFuzz的CGF软件库。

此外,Ian与团队的人提出对抗正则化方法(https://arxiv.org/pdf/1807.07543v2.pdf )显著改善了自编码器的平滑插值能力,这不仅能提高自编码器的泛化能力,对于后续任务的表征学习也会大有帮助。

何恺明

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

何恺明,2003年广东9名高考状元之一,本科就读于清华大学。博士毕业于香港中文大学多媒体实验室,研究生导师为汤晓鸥。 何恺明与他的同事开发了深度残余网络(ResNets),目前是计算机视觉领域的流行架构。ResNet也被用于机器翻译、语音合成、语音识别和AlphaGo的研发上。

2009年,何恺明成为首获计算机视觉领域三大国际会议之一CVPR“最佳论文奖”的中国学者。 何恺明作为第一作者获得了CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)的最佳论文奖,并获得了ICCV 2017最佳学生论文奖。

2017年4月,何恺明获选香港中文大学(中大)工程学院杰出校友。

进入FAIR部门之后,何恺明的动向一直备受关注,在3月份左右,他和FAIR 研究工程师吴育昕提出了组归一化(Group Normalization)方法,试图以小批尺寸实现快速神经网络训练,这种方法对于硬件的需求大大降低,并在实验中超过了传统的批归一化方法。这篇论文也获得了ECCV 2018最佳论文(2018年9月13日,ECCV 2018 获奖论文公布,吴育昕与何恺明合作的《Group Normalization》获得了最佳论文荣誉提名奖。)

6月19日,CVPR 2018奖项出炉,何恺明获得本届大会的 PAMI 年轻学者奖。

8月份的时候,何恺明等多名研究者发表了一项独特的迁移学习研究,无需数据清洗和手工标记数据,通过训练大型卷积网络可以预测数十亿社交媒体图像的hashtag,在图像分类和目标检测任务上都得到了迄今最高的精度。

11月22日,何恺明等人在arxiv贴出一篇重磅论文,题为《Rethinking ImageNet Pre-training》,表明ImageNet 预训练模型并非必须,ImageNet 能做的只是加速收敛,对最终物体检测的精度或实例分割的性能并无帮助。

陈天奇

【收藏】CMU、斯坦福等知名AI实验室、团队AI成果大盘点

陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得 KDD CUP 2012 Track 1 第一名,并开发了 SVDFeature,XGBoost,cxxnet 等著名机器学习工具,是 Distributed (Deep) Machine Learning Common 的发起人之一。

2018年5月份,陈天奇以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架(https://arxiv.org/pdf/1805.08166.pdf ),以优化用于深度学习工作负载的张量程序。该研究使用基于机器学习的方法来自动优化张量运算核心并编译AI工作负载,从而可以将最优的性能部署到所有硬件。实验结果表明,该框架能够为低功耗CPU,移动GPU和服务器级GPU提供与最先进手工调优库相媲美的性能。

7月12日,陈天奇团队推出 Versatile Tensor Accelerator(VTA),这是一种开放、通用、可定制的深度学习加速器。VTA是一种可编程加速器,提供了 RISC风格的编程抽象来描述张量级的操作。VTA的设计体现了主流深度学习加速器最突出和最常见的一些特征,比如张量操作、DMA加载 /存储和显式的计算 /内存调节。

谷歌:Deep Mind人工智能实验室

DeepMind位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人联合创立,是前沿的人工智能企业,其将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。最初成果主要应用于模拟、电子商务、游戏开发等商业领域。谷歌于2014年收购了该公司。目前,Google 旗下的 DeepMind 已经成为 AI 领域的明星。

2018年2月27日,Deepmind提出了命名为“独角兽(Unicorn)”的智能体架构,它展示出优秀的持续学习能力,已经胜过很多基准智能体。研究人员表示,独角兽通过利用并行的off-policy学习策略,统一表示和学习多种策略,才达到了这样的表现。

7月28日,发表的论文《Machine Theory of Mind》中,研究人员提出了一种新型神经网络 ToMnet,具备理解自己以及周围智能体心理状态的能力。该论文已被 ICML 2018 接收为 Oral 论文。

8月13日,与伦敦 Moorfields 眼科医院合作,已经训练其算法能够检测出超过 50 种威胁视力的病症,其准确度与专家临床医生相同。它还能够为患者正确推荐最合适的行动方案,并优先考虑那些最迫切需要护理的人。

10月,发表了一篇题为《Do Deep Generative Models Know What They Don't Know?》(https://arxiv.org/abs/1810.09136?context=stat.ML )的论文。该论文提出,过去学界普遍认为神经网络在面对和训练数据分布不同的数据时容易产生错误的预测,而生成模型则在这个问题上鲁棒性更强。不过他们发现基于流程的模型,VAE和PixelCNN的模型密度无法区分常见物体。

11月14日,宣布旗下的健康部门DeepMind Health、以及负责推进“Streams”(帮助医生更快识别和诊断患者病情的移动APP)团队将调整合并到Google 最新成立的“Google Health”部门中。原子公司DeepMind Health将不再作为独立品牌存在,但是,DeepMind的其他部门仍将保持独立。

11月16日,DeepMind表示其与英国眼科医院Moorfields合作的人工智能医疗研究项目已进入下一阶段。该项目旨在探索人工智能技术在眼部疾病诊疗方面的应用。8月时DeepMind发布了该项目的第一批结果,该结果表明人工智能可以与专家人类医生的表现相匹配,为50多种眼病的正确疗程提供建议。DeepMind表示,基于这项研究成果,该项目已经进行到下一个研究阶段,在症状出现之前预测眼病和预防严重疾病。

12月5日,DeepMind宣布推出全新的AlphaFold系统,能够预测并生成蛋白质的3D结构。这一系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手。

12月,ICLR 2019 接收论文名单放出,DeepMind & Google 的唇读技术论文《LARGE-SCALE VISUAL SPEECH RECOGNITION》(https://openreview.net/pdf?id=HJxpDiC5tX )未被接收。评审们认为即使它在工程上和数据上都非常突出,但大模型加上大数据会提升性能是共识,这类改进不能被看作是贡献。

今年年初,DeepMind和牛津大学提出了注意力神经过程。研究者认为,神经过程(NP)存在着一个根本的不足——欠拟合,对其所依据的观测数据的输入给出了不准确的预测。他们通过将注意力纳入NP来解决这个问题,允许每个输入位置关注预测的相关上下文点。研究表明,这大大提高了预测的准确性,显著加快了训练速度,并扩大了可以建模的函数范围。

谷歌:Google Brain团队

Google Brain是谷歌的人工智能研究小组,由Jeff Dean, Greg Corrado和Andrew Ng共同成立。成立于2011年的谷歌大脑,目前有正式成员48名,团队负责人是传奇人物Jeff Dean。在这个团队中,还包括部分供职的泰斗级人物Geoffrey E. Hinton,以及Martín Abadi、Michael Burrows等资深科学家。另外,谷歌首席科学家Vincent Vanhoucke也在谷歌大脑团队中。

2018年2月,Ilya Tolstikhin 等人提出了生成模型新算法:Wasserstein 自编码器,其不仅具有VAE的一些优点,更结合了GAN结构的特性,可以实现更好的性能。该研究的论文《Wasserstein Auto-Encoders》(https://arxiv.org/abs/1711.01558 )被在 4 月 30 日于温哥华举行的 ICLR 2018 大会接收。

2018年4月,谷歌架构调整。谷歌大脑(Google Brain)联合创始人杰夫·迪恩(Jeff Dean)将领导谷歌所有人工智能领域的项目。

在5月份的ICLR 2018中,和卡内基梅隆大学的研究者提出一种新型问答模型 QANet (https://openreview.net/pdf?id=B14TlG-RW ),该模型去除了该领域此前常用的循环神经网络部分,仅使用卷积和自注意力机制,性能大大优于此前最优的模型。

来自谷歌大脑的研究者在arXiv上发表论文(https://arxiv.org/abs/1805.09501 ),提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略。此外,从一个数据集中学到的策略能够很好地迁移到其它相似的数据集上。

8月初,同柏林工业大学的研究人员在最新发表的论文Backprop Evolution (https://arxiv.org/pdf/1808.02822.pdf ),提出一种自动发现反向传播方程新变体的方法。该方法发现了一些新的方程,训练速度比标准的反向传播更快,训练时间也更短。

Ian等人还提出了对抗正则化方法(https://arxiv.org/pdf/1807.07543v2.pdf )显著改善了自编码器的平滑插值能力,这不仅能提高自编码器的泛化能力,对于后续任务的表征学习也会大有帮助。

此外,Ian和Augustus Odena共同提出了一种新方法覆盖引导模糊测试(coverage guided fuzzing,CGF),将其应用于神经网络的测试(https://arxiv.org/pdf/1808.02822.pdf ),该方法能够自动Debug神经网络。Goodfellow表示,希望这将成为涉及ML的复杂软件回归测试的基础,例如,在推出新版本的网络之前,使用fuzz来搜索新旧版本之间的差异。此外开源了名为TensorFuzz的CGF软件库。

在11月的时候公开了一篇论文“Simple, Distributed, and Accelerated Probabilistic Programming”(https://arxiv.org/pdf/1811.02091v1.pdf ),发表于NIPS 2018。论文提出了一种简单的方法,用于将概率编程嵌入到深度学习生态系统。这种简单分布式、加速的概率编程,可以将概率程序扩展到512个TPUv2、1亿+参数的模型。

年底的NeurIPS 2018上,密歇根大学和谷歌大脑的研究人员提出了一种新的面向NLP任务的机器学习新架构(https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf ),不仅能够根据给定的实例生成句子,而且能够在保留句子意思的情况下,改变句子表达的感情、时态、复杂度等属性。

今年初,CMU联合谷歌大脑、谷歌 AI 发表了一篇论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(https://arxiv.org/pdf/1901.02860v1.pdf )。Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。在此论文中,研究人员提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。

Facebook : FAIR(Facebook’s Artificial Intelligence Research)

五年前,Yann Lecun创立了 Facebook 人工智能研究院(FAIR),旨在通过开放研究推进人工智能的发展,并惠及所有人。FAIR 的目标是理解智能的本质,以创造真正的智能机器。自此以后,FAIR 不断发展,并成长为一个国际研究组织,在门洛帕克、纽约、巴黎、蒙特利尔、特拉维夫、西雅图、匹兹堡、伦敦都设有实验室。人工智能已经成为 Facebook 的核心,因此 FAIR 现在是更大的 Facebook AI 组织的组成部分,该组织致力于人工智能研发的各个方面,从基础研究到应用研究和技术开发。

FAIR团队经常早早地发布前沿研究成果,并尽可能地开源研究代码、数据集和工具(如 PyTorch、fastText、FAISS、Detectron)。这种方法也成功地推动了人工智能的研究发展。今年,FAIR 的研究人员已经获得了广泛认可,在 ACL、EMNLP、CVPR、ECCV 等大会获得了最佳论文奖,在 ECCV、ICML 和 NeurIPS 会议上获得了时间检验奖(Test of Time award)。开放的工作可以让每个人在人工智能领域取得更快的进步。

4月初,FAIR 研究人员提出两种机器翻译模型的变体,一种是神经模型,另一种是基于短语的模型。研究者结合了近期提出的两种无监督方法,并简化了结构和损失函数,得出的新模型性能更优,且易于训练和调参。

5月13日,开源了围棋 AI ELF OpenGo训练模型及代码,它基于现有的强化学习研究平台 ELF,击败了世界围棋冠军。

6月19日,FAIR开源了 DensePose,这是一个能将人体所有像素的 2D RGB 图像实时映射到 3D 人体模型的应用。这一模型利用 COCO 数据集中 50K 张密集型人体对应关系的标注,并在有遮挡和尺度变换等自然情况下能准确实现密集型人体姿态估计。

11月初,FAIR 和纽约大学的研究者合作开发了一个新的自然语言推断语料库 XNLI,该语料库将 MultiNLI 的测试集和开发集扩展到 15 种语言,包括斯瓦西里语和乌尔都语等低资源语言。XNLI 是跨语言句子理解的基准,实际可用且具备一定难度,有助于带来更好的跨语言理解方法。

在年底,FAIR宣布推出 PyText 的开源版本,它是Facebook正在使用的主要自然语言处理(NLP)建模框架,目前每天在为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理;同时FAIR开源了全卷积语音识别工具包wav2letter++。

今年年初,FAIR Alexander Kirillov、何恺明等人在《Panoptic Feature Pyramid Networks》(http://cn.arxiv.org/pdf/1901.02446v1 )提出全景特征金字塔网络。该论文提出的全景特征金字塔网络结合了分别用于语义分割和实例分割的 FCN 和 Mask R-CNN,在两种任务基线上有很好的稳健性和准确率。

MIT : CSAIL(Computer Scienceand Artificial Intelligence Laboratory)

MIT的CSAIL最初是两个实验室:计算机实验室创办于1963年,人工智能实验室创办于1959年,两个实验室在2003年正式合并。CSAIL是MIT最大的实验室,也是世界上最重要的信息技术研发中心。CSAIL的成员创立了多于100家知名公司,包括机器人之父科林·安格尔,iRobot公司创始人之一海伦·格雷纳,波士顿动力公司创始人马克·雷伯特,还有卡内基·梅隆大学机器人研究所的负责人马特·梅森。

4月初,CSAIL研发出一种名为Pixel Player系统(https://arxiv.org/abs/1804.03160 ),能够通过大量无标签的视频来学习声音定位,更强大的是,Pixel Player能够把声音与声源的像素点进行分离,并完美做到视觉与声音的同步,“想听哪里点哪里”。同时,利用Pixel Player系统,用户能够对图像中不同的声音分别进行音量调节,实现简单的音频编辑。

此外还提出了一款名为 RoadTracer 的道路采集系统。针对道路交汇路段,RoadTracer 的采集准确率能达到 45%,远高于传统图像分割方法的 19%。

5月初,CSAIL1的研究人员开发了一种全新的系统 MapLite,这种系统允许无人车在不依赖 3D 地图的情况下,在未知的道路上驾驶。此外,该系统还能将 Google 地图上的 GPS 数据与一系列传感器收集到的路况信息结合起来。

7月,CSAIL和电子工程与计算机科学系( EECS )的研究人员开发了一种模型用于更有效的选择先导分子。该模型输入分子结构数据,创建分子图片,详细展示分子结构,节点代表原子,边线代表化学键。这些图又被分解成更小的有效官能团簇,成为“构件”,用于实现更精确的分子重构和修饰。

8月,CSAIL正式发布编程语言Julia 1.0,这门由MIT CSAIL 实验室开发的编程语言结合了 C 语言的速度、Ruby 的灵活、Python 的通用性,以及其他各种语言的优势于一身,并且具有开源、简单易掌握的特点。

10月4日,CSAIL和QRCI(卡塔尔计算研究所)宣布研究出一种可以识别虚假新闻在传播前的来源和个人政治偏见的AI系统。他们所使用的机器学习算法利用现有文章集合来衡量给定出口的准确性和偏差,该系统或可将不可信赖的新闻信息自动分类。

在12月发表的论文《Deep sequential models for sampling-based planning》(https://arxiv.org/abs/1810.00804 )中,研究人员展示了他们的模型在两个环境中的优势:通过具有陷阱和狭窄通道的具有挑战性的房间导航,以及在避免与其他Agent碰撞的区域导航。一个有前途的现实世界应用程序正在帮助自动驾驶汽车在十字路口行驶,在那里他们必须在并入交通之前快速评估其他汽车将做什么。目前,研究人员正通过丰田凯撒尔联合研究中心来研究这些应用。

NeurIPS 2018中,CSAIL和谷歌的研究人员发表了一篇论文,描述了一个能够生成具有逼真纹理的人工智能系统——视觉对象网络(Visual Object Networks,VON),不仅生成的图像比当前最先进的方法还要逼真,还可以进行形状和纹理编辑、视角转换以及其它3D调整。

UC Berkeley : BAIR(Berkeley Artificial Intelligence Research)

加州大学伯克利分校的人工智能研究室(Berkeley Artificial Intelligence Research)主要研究领域涵盖计算机视觉、机器学习、自然语言处理、规划和机器人等(computer vision,machine learning,natural language processing, planning, and robotics)。其中的机器人和智能机器实验室,致力于用机器人复制动物的行为。其自动化科学和工程实验室从事更广泛的机器人功能的研究,如机器人辅助外科手术和自动化制造。还有计算机可视化小组,学生可以学到如何帮助机器人能“看得见”。

4月的时候,BAIR介绍了他们对于运动建模的最新研究成果DeepMimic模型,他们使用动作捕捉片段训练自己的模型。训练中着力减小跟踪误差并采用提前终止的方法来优化训练结果。训练模型最终表现优秀。

6月,BAIR发表博客论文《Delayed Impact of Fair Machine Learning》,讨论了静态公平性准则的长期影响,发现结果和人们的期望相差甚远。相关论文被 ICML 2018 大会接收(https://arxiv.org/pdf/1803.04383.pdf )。

6月的时候还发布了迄今为止规模最大、最多样化的开放驾驶视频数据集BDD100K。该数据集共包含 10 万个视频,BAIR 研究者在视频上采样关键帧,并为这些关键帧提供注释。此外,BAIR 还将在 CVPR 2018 自动驾驶 Workshop 上基于其数据举办三项挑战赛。

10月18日,BAIR开源了DeepMimic(https://xbpeng.github.io/projects/DeepMimic/index.html )。DeepMimic使用强化学习技术,用动作捕捉片段训练模型,教会了AI智能体完成24种动作,包括翻跟斗、侧翻跳、投球、高踢腿等等,动作非常流畅自然。

BAIR的研究人员还提出了一种从视频中学习技能的框架(skills from videos,SFV),结合了前沿的计算机视觉和强化学习技术构建的系统可以从视频中学习种类繁多的技能,包括后空翻和很滚翻等高难度动作。同时智能体还学会了在仿真物理环境中复现这些技能的策略,而无需任何的手工位姿标记。

BAIR年末的一篇《Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control》(https://arxiv.org/abs/1812.00568 )论文中,提出了一种自我监督的基于模型的方法,在这种方法中,预测模型学习直接从原始感官读数(如摄像机图像)预测未来,证明了可视化MPC可以概括为从未见过的对象并使用相同的模型解决一系列用户定义的对象操作任务。

蒙特利尔大学 : MILA(Montreal Institute for Learning Algorithms)

加拿大蒙特利尔现在被媒体称作是人工智能的“新硅谷”。加拿大广播公司报道说,这个功劳,主要归功于“深度学习三巨头”之一的Yoshua Bengio。他是MILA(Montreal Institute for Learning Algorithms)的创始人,带领团队进行人工智能研究已经有超过10年的时间。由蒙特利尔大学 (University of Montreal )的计算机学教授Yoshua Bengio带领,MILA在深度学习(deep learning)和深度神经网络(辨别型和生成型)(deep neural networks, both discriminative and generative)等领域都有开创性研究,并应用到视觉、语音和语言方面等领域。

4月,MILA提出了一种有助于提升深度网络在应对对抗攻击方面的稳健性的模型:防御增强型网络(Fortified Networks)。该研究已提交 ICML 2018 (https://arxiv.org/abs/1804.02485v1 )。

10月,Yoshua Bengio及其小组提出了一个叫做「BabyAI」的研究平台用来训练人工智能从头学习和理解人类语言,每个单词背后的意思到底是什么。该平台包括一个有效模拟的网格世界环境(MiniGrid)和一些被称之为Level的指令跟随任务,全部由合成语言的子集(婴儿语言)形成。平台还提供了一个模拟人类的启发式专家,用于模拟人类教师。

斯坦福:SAIL(Stanford Artificial Intelligence Laboratory)

去年一年里,SAIL所获得的最佳论文:

Yuanzhi Li, Tengyu Ma, Hongyang Zhang. Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations. Best paper award at COLT 2018.

在论文中探讨了了梯度下降法为训练过参数化的矩阵分解模型,以及使用二次函数作为激活函数 的单隐含层神经网络提供了隐式的正则化效果。

Pranav Rajpurkar, Robin Jia, Percy Liang. Know What You Don’t Know : Unanswerable Questions for SQuAD.. Best short paper ACL 2018.

在这篇论文中,SAIL提供了SQuAD 2.0,这是斯坦福问答数据集(SQuAD)的最新版本。SQuAD 2.0将现有的SQuAD数据与5万多个无法回答的问题结合在一起,这些问题由众包人员以相反的方式撰写,看起来与可回答问题类似。为了在SQuAD 2.0上取得好成绩,系统不仅必须尽可能回答问题,还要确定何时段落不支持答案并且不回答问题。SQuAD 2.0对于现有模型来说是一个具有挑战性的自然语言理解任务:在SQuAD 1.1上获得86% F1的强大的神经系统在SQuAD 2.0上仅获得66%F1。

Rob Voigt, Nicholas P. Camp, Vinodkumar Prabhakaran, William L. Hamilton, Rebecca C. Hetey, Camilla M. Griffiths, David Jurgens, Dan Jurafsky, and Jennifer L. Eberhardt. Language from police body camera footage shows racial disparities in officer respect. Cozzarrelli Prize (best paper in PNAS).

这篇论文利用随身携带的摄像机拍摄的录像,分析了警察语言在日常交通中对白人和黑人社区成员的尊重程度,发现即使在控制了警察的种族、违法行为的严重程度、停车地点和停车结果之后,警察对黑人和白人社区成员的尊重程度也一直较低。

Amir Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese. Taskonomy:Disentangling Task Transfer Learning. Best paper award at CVPR 2018.

这篇论文提出了一种计算不同任务相似性的方法,以及利用不同任务相似性,在少量训练数据条件下进行多任务组合学习的分配方法。文章的最终目标是通过计算任务相似性,进一步计算选取针对目标任务的多任务组合进行训练,并实现以少量数据尽可能接近全监督学习的性能。

Zi Ye, Olga Diamanti, Chengcheng Tang, Leonidas Guibas, Tim Hoffmann. A unified discrete framework for intrinsic and extrinsic Dirac operators for geometry processing. 1st Place best paper award at SGP 2018.

本文考虑了一对离散的Dirac算子,后者对应于每个面上定义了多边形面和正态线的离散面,并证明了光滑理论的许多关键性质。特别地,讨论了相应的自旋变换、它们的保角不变量以及这一算符与其内在对应算符之间的关系。

Jingwei Huang, Yichao Zhou, Matthias Nießner, Jonathan Shewchuk, Leonidas Guibas. QuadriFlow: A Scalable and Robust Method for Quadrangulation. 2nd Place best paper award at SGP 2018.

本文提出的算法是在Instant Field-Aligned Meshes 这篇文章的基础提出的。本文提出了一种有效的方法,通过将实时网络目标与线性和二次约束系统相结合来最小化奇点。通过解决全局最小成本网络流问题和本地布尔满意度问题来实施这些约束。利用本文算法生成的四边形质量与其他方法一样好,而且运行速度较快。其他的外部算法产生的奇点比较慢,本文的算法花费不到10秒钟来处理每个模型。

Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives. Best paper award at NIPS 2017.

这篇文章研究了一种风险最小化和随机优化的方法,该方法可以为方差提供一个凸属性的替代项,并允许在逼近和估计误差间实现近似最优与高效计算间的权衡。

卡内基梅隆大学

卡内基梅隆大学(Carnegie Mellon University)一直是众所周知的计算机领域大牛。自人工智能(Artifical Intelligence)领域创建以来,卡内基梅隆大学一直在全球引领AI的研究、教育和创新。在18年秋季,其计算机学院开设全美第一个人工智能本科专业。

CMU团队最新的主要研究成果如下:

CMU的陈鑫磊(现Facebook 研究科学家)、Abhinav Gupta,谷歌的李佳、李飞飞等人提出的一种新型推理框架《Iterative Visual Reasoning Beyond Convolutions》(https://arxiv.org/abs/1803.11189 ),其探索空间和语义关系的推理性能大大超过了普通卷积神经网络,被评为 CVPR 2018 大会 Spotlight 论文。

年中时候,在读博士刘寒骁、DeepMind 研究员 Karen Simonyan 以及 CMU 教授杨一鸣提出的「可微架构搜索」DARTS 方法基于连续搜索空间的梯度下降,可让计算机更高效地搜索神经网络架构。该研究的论文《DARTS: Differentiable Architecture Search》(https://arxiv.org/abs/1806.09055 )一经发出便引起了 Andrew Karpathy、Oriol Vinyals 等学者的关注。研究者称,该方法已被证明在卷积神经网络和循环神经网络上都可以获得业内最优的效果,而所用 GPU 算力有时甚至仅为此前搜索方法的 700 分之 1,这意味着单块 GPU 也可以完成任务。

10月份的时候,来自英特尔实验室和卡内基梅隆大学的研究员提出了一种用于序列建模的新架构Trellis Network。研究员声称,Trellis Network吸收了循环神经网络和卷积神经网络中的结构和算法元素。实验证明,Trellis Network在各种具有挑战性的基准测试中表现都优于当前的技术水平,包括Penn Treebank和WikiText-103。

在今年年底,NIPS 2018 对抗视觉挑战赛中, CMU 邢波团队包揽两项冠军,另一项冠军则由来自加拿大的 LIVIA 团队斩获,清华 TSAIL 团队获得“无针对性攻击”的亚军。本次比赛共分为三个单元:防御、无针对性攻击和有针对性攻击。

CMU、北大和 MIT 的研究者在年底发表了论文《Gradient Descent Finds Global Minima of Deep Neural Networks》(https://arxiv.org/abs/1811.03804v1 ),该论文证明了对于具有残差连接的深度超参数神经网络(ResNet),梯度下降可以在多项式时间内实现零训练损失。研究者的分析依赖于神经网络架构引入的格拉姆矩阵的多项式结构。这种结构帮助研究者证明格拉姆矩阵在训练过程中的稳定性,而且这种稳定性意味着梯度下降算法的全局最优性。

伊利诺伊大学大学厄本那香槟分校

伊利诺伊大学厄巴纳-香槟分校(University of Illinoisat Urbana-Champaign,缩写为UIUC),建立于1867年,是一所享有世界声望的一流研究型大学。该大学从美国国家科学基金会(NSF)获得研究经费量年年在全美名列第一。位於该大学的美国国家超级计算应用中心(NCSA)在高性能计算、网路和资讯技术的研究和部署领域,一直处于世界领先的地位。

UIUC的最新研究成果如下:

来自北京邮电大学和UIUC的研究者们提出一种适用于密集人群计数的空洞卷积神经网络模型 CSRNet,论文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》(https://arxiv.org/pdf/1802.10062.pdf )。该网络模型摆脱以往广泛应用于人群计数的多通道卷积网络方案,在大幅削减网络参数量和网络训练难度的同时,显著提升了人群计数的精度和人群分布密度图的还原度。该研究已被 CVPR 2018 接收。

UIUC 和 Zillow 的研究者发表《LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image》(https://arxiv.org/abs/1803.08999 )论文提出了 LayoutNet,它是一个仅通过单张透视图或全景图就能估算室内场景 3D 布局的深度卷积神经网络(CNN)。该方法在全景图上的运行速度和预测精度比较好,在透视图上的性能是最好的方案之一。该方法也能够推广到非长方体的曼哈顿布局中,例如“L”形的房间。

极低照明度下,传统增加亮度的方法会放大噪点和色彩失真。而 UIUC 和英特尔的研究者在《Learning to See in the Dark》(https://arxiv.org/abs/1805.01934 )中通过全卷积网络处理这一类黑黑的照明度图像,并在抑噪和保真的条件下将它们恢复到正常亮度。这种端到端的方法将为机器赋予强大的夜视能力,且还不需要额外的硬件。

本文经授权转载自微信公众号SIGAI,ID:SIGAICN

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表