当前位置:www.83s.com > 熔接机 > 正文
【ImageNet最后的冠军】颜火成:像素级标注数据散
发布日期:2018-04-16

1新智元专访  

 编辑:整夏

【新智元导读】2017年,ImageNet ILSVRC正式宣布终结。在较量争论机视觉领域深耕16年的“老兵”颜水成取团队拿下最后冠军,偶合的是,5年前的PASCAL VOC支卒之战,冠军也是他。有“水哥”之称的颜水成堪称较量争论机视觉竞赛领域名副其实的常胜将军。在本次接收新智元的专访中,他分享了自己多年来的战役经历和实战经历。目下当今已担负副教授的他,对学生也有很多寄语。颜水成认为,较量争论机视觉的已来属于多标签、像素级、语义级分析。

颜水成,360副总裁、人工智能研究院院长,新加坡国立大学终言教职,作为较量争论机视觉界的宿将,本年他和他的前学生Feng Jiashi助理教授一起率领团队摘得了ImageNet Challenge收官之战的 “皇冠”,同时5年前他异样带领团队摘得了PASCAL VOC收官之战的“皇冠”。

此次专访,他将带着我们看:将来较量争论机视觉研究还能怎样玩?

他认为,相似于PASCAL VOC竞赛, ImageNet已经实现任务,它的单标签识其余核心问题已不再代表未来的主要发展标的目的,确实可以终结了。而较量争论机视觉的未来属于多标签、像素级、语义级分析。

 

他不认为Web Vision是最终代替ImageNet的数据集,他认为需要一个像素级、多标签的数据集才可能引领较量争论机视觉进入下一个时期。如果像素级分类做好了,无论做任何类型图像理解和语义理解的问题都好办了。

 

虽然目下当今新的数据集有做语义级别分析或者局部联系关系分析的,但这些数据库存在内在的局限性。 树立一个像素级和多标签的数据集挑战特别很是大,他希看在合适的时间点,由大公司或NPO甚至国家出来做这样的事情。

 

对于戴得最后一届ImageNet皇冠的DPN模型,颜水成和他的先生们借从本度上商量了ResNet、DenseNet和DPN之间关联。他以为固然ResNet可以解释成是DenseNet的一个特例,而DPN也是两者思惟的融合,然而因为两者是错位对接的,DPN无法再解释成DenseNet的一种特列,而是一种新的网络结构。

 

对各类图像比赛,他的观念是:竞赛的名次自身实在不重要,主要是“是不是给整个society带来有驾驶的insight”。“雕虫小技”很轻易被人忘记,”群殴”式的模型堆砌不会被人敬仰,”暗害”式的不颁布算法细节的刷榜很难被铭刻。比赛给各类算法供给了一个绝对公正的“交手场”,这是有助于技巧翻新的。基础模型和尺度组件是两种罕见的为全部society奉献Insight的款式格式。

 

对于比来炽热的边缘较量争论,他认为人人都盼望AI终极能降地,2C的量弘远于2B的量,最大的量在手机等末端装备上。以是边缘较量争论是野生智能收展需要决议的一个大驱除。技术上看,今朝有三种体式格局降低边缘较量争论量:第一种是内功―就是特殊好的网络结构;第二种是武器―低精度泄漏表现的方法;第三种是暗器―巧妙用低功耗的网络前断定那部门不需要较量争论的网络。三种方法都是为了增加较量争论量以顺应边缘较量争论,三种相辅相成。

 

最后他报告了本人在较量争论机视觉领域的整整16年,他认为,算法改造了很多代,但是研究的很多问题本身没变。颜水成师启较量争论机视觉巨匠Thomas S. Huang、张宏江、汤晓鸥、李子青等,本在学术界风生水起,却果为老周对智能硬件的热忱而跨入工业界,经历了学术界到产业界的宏大变化。他更理解若何施展学生各自专长,带出了很多优良的学死,谁适合工业界谁又适合学术界,他都加以指引。虽然他是一个很push的老板,但也被学生亲热地称为“水哥”。

以下是颜水成采访实录,由编纂整理,有删加和调剂。

ImageNet确切可以终结了,较量争论机视觉的未来属于多标签、像素级、语义级

“图像的竞赛仍是像素级此外分类更好。假如像素级宰割做好了,不管做任何类别图像理解或语义理解的问题都好办了。”

 

新智元:今年之后ImageNet的ILSVRC挑战赛“加入江湖”,能否是注解分类检测任务已经与得相对完美的发挥分析?

 

颜水成:较量争论机视觉竞赛有很少的近况,PASCAL VOC进止了八年,ImageNet也是八年。每个比赛都承载了大家对技术发展的冀望,同时人人也会逐步发明这些数据库的局限性。

 

2005-2012年,PASCAL VOC特别非常水,但是只要二十类,2010年软弱下手的ImageNet有一千类,因而研究者逐渐转背ImageNet。

 

ImageNet数据库目下当古最大的挑衅是,在分类中每一个图像中只标注了一个主要的物体,所以ImageNet主如果做单个物体的分类和定位。这不契合事实天下图像的散布特点,存在范围性,这是ImageNet停止比赛的一个重要原因。但是ILSVRC比赛外面的物体检测这个任务,本身还没有闭幕,前面还会也应当继承下来。

 

我们需要像某些多标签的多媒体数据集如许的数据集,更吻合实在图像的情形。

 

新智元:多label的数据散,面前目今他日有哪些?

 

颜水成:比较大的有来改过加坡国立大学的NUS-WIDE。但是label也不多,只有81个。

 

新智元:ImageNet为何是单label?

 

颜水成:任务量的问题,多label意味着每一个图像对多个label要做校验。但是单label只要要断定yes or no。

 

如果是个一千个label的多标签数据集,你的校验就是一千倍,不然仍然会存在过错。

 

新智元:未来较量争论机视觉的竞赛还应应往哪方面发展呢?

 

颜水成:在我小我私人看来,图像的竞赛还是像素级另外分类更好。如果图像分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。

 

ImageNet客岁有Scene Parsing任务,但遗憾的是本年没持续。如果未来把图像分割做为中心任务,再做任何别的任务就好办多了。

 

真挚好的分割是全景的分割。所谓齐景分割,就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多,标注量也特别很是大。

 

生机在合适的时间点有至公司或NPO来做这样的事情。目下当今有新的数据集做语义级别分析或者部分接洽关系分析,但这些数据库存在内在的局限性,最终还是要做像素级别。

DPN摘下最后的“皇冠”,本质是ResNet和DenseNet思想的结合

“ResNet可以解释成是DenseNet的一个特例。但是DPN还临时无法被解释成是DenseNet的特例。原因是...”

新智元:本届比赛中,你地点团队应用了DPN技术,这种技术除用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务,是不是合适用其余任务或运用上?

 

颜水成:较量争论机视觉领域的根蒂根基模型相当重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及此次的DPN。不但单限于这三大任务,只有较量争论机视觉相干的而且用深度学习的都可受害于这些根蒂根基模型。

 

新智元:论文中道ResNet是DenseNet的一个特例,而DPN联合了两种本相的思维,DPN是否是也是一种DenseNet的惯例呢?

 

颜水成:这个问题特别很是有意义。ResNet可解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因情由是,把ResNet当做DenseNet特例的时候,两者是有错位的。

ResNet的block和DenseNet的block没有是对付齐的,而是错位对答的。把ResNet和DenseNet融会正在一路的话,它们错位了。我跟CHEN Yunpeng皆细心剖析过,无奈把新的DPN再说明成是本来的DenseNet的构造。

 

其内涵的公道性我们用三角形来做个类比,DenseNet可以算作等边曲角三角形,ResNet是个中一个目的目标的特例。如果适合天拼接,可以构成别的一个等边三角形,但也可能拼接成一个正圆形。DPN属于后者,因为错位拼接,最后的模型不再是DenseNet。

 

下一个ImageNet:根本上还是需要有一个像素级标注的数据集

“涉及到语义,ground-truth往往不reliable,很多标注达不成共识,这让研究的难度删加很多。”

新智元:ImageNet已经离别,目下当今出现了 Visual Genome、Web Vision这样的结合语义和常识的图像数据集,您认为是不是意味着语义和知识的理解是下一个趋势?视觉和天然说话处理是不是会殊途同归?

 

颜火成:起首,波及到语义的时候,易度比ImageNet的分类义务年夜许多。现在做语义级其余懂得,一种是摸索图像块之间的语义关联,另有一种是用一段话去描写图象。这时候候候不再是一个个标签,而是伺候的序列组合。这个空间和图像空间二者融开在一同,其内涵维度便比之前增添了很多。维量的增长,象征着练习所须要的数据量就更多。

 

做图像理解和语义理解的奢望是纷歧样的,港京图源图库。ImageNet分类的问题,是给图像一个label或者一个框,只要这一千个标签分类做的还不错,大家就可能接受。涉及到语义层里,即便像Image Caption 这样的任务,人们都对你最后说出来这句话有着特别很是高的期冀,人们盼望这些话是有价值的,不是单调无意思的,例如“一个棵树中间有一朵花”这种话对一般人来说没有太大价值。

 

总的来讲,当跋及语义理解,题目就会变得加倍庞杂,需要的数据量也比以前大很多。当心是输入的成果却常常价值非常无限。

 

新智元:目下当今有无好一点的方法做像素级标注数据?

 

颜水成:比较好的体式格局是有一些数据标注公司和互联网巨子乃至国家参加出去。例如专项本钱的投入,让巨子出数据并做好数据的荡涤,而国家出钱让社会上特地的标注公司一起把这件事件做好。就国度的新一代人工智能发展计划中提到:把数据作为一种根蒂根基平台扶植。

 

新智元:技术上有什么算法可以帮助天生如许的数据?

 

颜水成:这是可能的。比如先用已有的数据用生成模型标注数据,而后再用人工微调。这样可以很好的减多数据标注所用的时间,达到智能标注的后果。

 

新智元:对于语义相闭数据集,标注的难度是什么?

 

颜水成:比喻说,用一句话描述图像,每个人的描述可能有比拟大的差异。如许ground truth就不那末reliable,很多标注达不成共鸣。这样带来的间接问题是算法结果利害的评价就不再相对可托了。

 

新智元:既然都是仁者睹仁的,那语义级辨认有什么利用呢?

 

颜水成:应用太多了。以网络速率的发展为根蒂根基,以后网络数据中会有很多及时视频流。但是人已无法标注了,发生图像和视频的速度太快了。这时候候就需要很多较量争论机视觉的算法,能对图像/视频产生有意义的文本描述,人去搜寻图像以及推举给合适的用户的时候就有价值了。

  

新智元:您认为谁能替换ImageNet?

 

颜水成:很多人的见解多是Web Vision。我小我公家的见地是,基本上还是需要有一个像素级标注的数据集,在这个根蒂基础上各种图像理解和语义理解的问题就好办了。

竞赛就是交锋场:如果你能贡献Insight,为什么不“刷榜”?

“比赛名次本身不重要,重要的是是否给整个society带来有价值的insight”

新智元:有人在知乎批评,远几年的ImageNet获奖步队都是用的深度学习,招致比赛的新意降落,您怎么看待这一说法?听说您的团队在五年内曾7次染指PASCAL VOC 和ILSVRC的世界冠军和亚军奖项。同时有一些媒体提到这类比赛的时候就说大家是刷分,您怎么看刷分辩法?

 

颜水成:比赛名次本身不重要,重要的是能可给整个society带来有价值的insight。雕虫小技”很容易被人遗记,”群殴”式的模型堆砌不会被人敬佩,”暗杀”式的不公布算法细节的刷榜很难被铭记。比赛给各种算法提供了一个相对公仄的“交手场”,这是有助于技术立异的。我小我私家感到最少有两类结果可以被认为是有Insight的,一类是根蒂根基模型,好比AlexNet, GoogleNet, VGG, ResNet和往年的DPN, 另外一类是深度学习的标准模块,比如1x1 卷积 和 Batch-normalization。

  

如果你在刷榜的同时还为society贡献了你的insight,那么为何不刷?

 

新智元:您怎么看待比赛给原创和创新带来什么好和坏的力气?

 

颜水成:我认为对创新还是特别很是有价值的。任何一个领域,原创和创新需要一个平台去展示去证明,就像比武一样,需要一个正式的、外界所承认的场合,如果在这个场所做的比较好,那么就能够很好的证实你的才能。算法也是一样,如果各自搜集各自的数据做测试,就没有可比性了。目下当今有一个固定命据集,他人已经做了实现了,我只需要把自己的完成做出来,就可以证明有用性了,省去了研究者重现他人算法的艰苦。所以这种竞赛对于创新和首创的速度起到了增进感化。

 

边沿较量争论模型的“内功”、“武器”和“暗器”

“网络好...这是硬工夫,是内功;低粗度流露表示...就像兵器;奇妙往失落不需要较量争论的局部网络:就像暗器。这三种方式是相反相成的”

新智元:DPN是下性能、低资源的一种模型,是不是实用于移动终端?

 

颜水成:任何一种网络结构都可以用在移动端,只不外会针对移动端特色对网络结构禁止特别的设想,比方ResNet,AlexNet、GoogleNet,咱们都在移动端用过。

 

新智元:DPN的比赛争论度下降了良多,是不是由于这类收集拓扑结构更好?实质上,改良机能或许削减姿势耗费是不是重要在于劣化网络的拓扑结构?

 

颜水成:在挪动端,加快有很多体式格局,我私家倾向总结成三种:

 

1.   网络好:计划一种结构好的网络,小批参数获得很好的结果,这是硬功妇,是内功;

 

2.  低精度透露表现:把数据从32/64位透露表现降到更少位的透露表现,就像武器;

  

3.  巧妙去失落不需要较量争论的部分网络:就像暗器。

 

就像我们的论文《More is Less: A More Complicated Network with Less Inference Complexity》里面的工作,专门为移动端做的设计。我们把网络结构变得更复纯,用low cost的网络去决定哪些地位的卷积不必算,降低了线上推理时候所需要的较量争论量。

 

这三种方法是相辅相成的,一种可以辅助另中两种,大师每每同维度降低较量争论量。

 

新智元:比来边缘较量争论比较火热,您怎样对待AI模型往移动端发展,这是不是是一个实实的趋势?

 

颜水成:趋势完整是由人工智能发展的需要决定的。各人都愿望最终能落地,一种是2B,一种是2C,2B的量久时不是特别大。

 

你念每年的移动终端例如手机的量有若干,要人工智能落地的话,最佳在手机上。这样就要满意较量争论资源的限度请求,充足应用硬件较量争论的特点,为专门的硬件做定造化减速。

较量争论机视觉的十多少载,研究的问题出变太多

“新加坡国立大学候任校长陈永财曾问我在工业界怎么,我的答复是:tiring but exciting”

新智元:您是甚么时辰进部属脚进进较劲争辩机视觉范畴?能够道谈那些年研讨CV,你的最年夜领会嘛?

 

颜水成:我做较劲争论机视觉是从2001年动手动手,十六年整了。我的第一位导师是李子青教学,厥后跟张宏江专士做较量争论机视觉和多媒体,在微硬亚洲研究院待了好未几三年半。

 

新智元:十六年最大的体会是什么?

 

其真较量争论机视觉研究的问题变更不大,比方人脸分析的贪图问题,十六年前都在研究了。但是办法最少阅历了三代发作:最早是做子空间分析和风行分析,谁人时光段涌现了很多子空间进修算法,例如很多PCA+LDA的变种。第发布代就是由马毅传授引领的,稀少和low-rank。最后就是深度进修的呈现,把整个发域带到了别的一个新的level。

 

新智元:您入职偶虎360曾经快要两年了,你对这段经历有什么感受?有没有到达您现在进入工业界的目的或者是不是合乎您的预期?

 

颜水成:我昔时加入360最吸收我的是智能硬件这一起,软硬件结合是较量争论机视觉的一个大标的目的。

 

企业界和学术界的差别很大,我也花了不少时间来顺应。新加坡国立大学候任校长陈永财曾问我在工业界怎样,我的回问是:tiring but exciting。从前的这段时间大部分都是九点半之后才回家,一周大多工作六天。

 

特别前沿的至多半年当前才会斟酌落地的研究领域我们会跟教术界配合,经过进程联合实验室做研究。例如跟新减坡国破大学Feng Jiashi教授组立结合试验室,在企业研究院的团队主要存眷业务线上详细的需供,用AI给现有营业赋能,同时跟营业部分一路孵化新的AI产物。

 

新智元:我们懂得到您有很多优秀的学生,可以先容一下他们嘛?有哪些您认为特别优秀的?

 

颜水成:作为教授对招进来的学生都是爱好的,经由几年学习以后,每一小我都有特其它处所。有些在工业界特别很是合适,有些则在学术界更合适。我会给他们做明白的指引。如果说谁最优秀的话,分享一个小故事。

 

我的博士后导师Thomas S. Huang客岁八十大寿,很多学生去庆祝,他提早告知大家,说会在晚宴的时候发表谁是他最优秀的学生。特别很是吊胃心。

 

最后迟宴上他特别很是骄傲地宣布,”all my students are my best students”。

 

我深认为然。我也很荣幸自己的学生都特别很是优秀。我带了一批学生到工业界,他们都曾在各种视觉竞赛中拿到冠军/最好结果,同时也有很多学生和博士后在米国、新加坡、中国任职(助理/副)教授。从2008入手下手,前后已有跨越100人曾或正在新加坡国立大学的Learning & Vision组学习。

先生和学生的关系是相对简略的,我在新加坡国立大学的时候,一直夸大slogan: Let’s work hard together! 我始终信任,等自己的学生分开研究组时,如果手里有一份干货满谦的CV, 尽对不会指责老板的Push。

【号外】新智元正在进行新一轮应聘,飞往智能宇宙的最好飞船,还有N个坐位

面击浏览本文可检查职位细目,等待您的参加~

【字号: 】 【打印】 【关闭】 点击量:
Copyright 2018-2021 www.pojieseo.com 版权所有 未经授权,严禁转载,违者将被追究法律责任。