人工智能时代前沿技术社区

首页 > 人工智能 > 热点

对话第四范式首席研究科学家陈雨强: 数据量不足是企业人工智能发展的瓶颈之一

人工智能正在不断地颠覆、刷新人们的认知,不断打开生活的新“入口”,甚至有人说,现在的社会已经进入了“AI+”的社会。我们都知道,有足够大的数据量是人工智能研究的基石,但对于那些数据量不够大的企业,是不是就无法做人工智能了呢?

作者:谭盼雨 | 2017-07-25 17:09:39 | 来源:飞马网原创

人工智能正在不断地颠覆、刷新人们的认知,不断打开生活的新“入口”,甚至有人说,现在的社会已经进入了“AI+”的社会。我们都知道,有足够大的数据量是人工智能研究的基石,但对于那些数据量不够大的企业,是不是就无法做人工智能了呢?

带着这样的疑问,飞马网记者采访了第四范式联合创始人、首席研究科学家陈雨强,陈总不仅详细回答了我们这个问题,而且从国内外人工智能发展的现状与区别、从人工智能领域发展的突破与阻碍等方面,都给出了他独到的见解。

飞马网对话第四范式首席研究科学家第四范式创始人陈雨强:数据量不足是企业人工智能发展的瓶颈之一

007.png

陈雨强

陈雨强,第四范式联合创始人、首席研究科学家。曾在百度凤巢主持架构了

世界上第一个商用的深度学习系统,在今日头条主持设计实现了中国用户量最多的新媒体人工智能推荐系统。陈雨强也是“迁移学习”领域全球领军人物,“迁移学习”被业界认为是“下一代人工智能技术”。

(2017年8月5日,由飞马网主办的“FMI2017国际人工智能&大数据高峰论坛”将在北京国家会议中心盛大开幕,届时,陈雨强将会在大会现场做精彩分享。) 

以下是本次飞马网的会前预热采访:

飞马网:据悉,第四范式的愿景是“AI For Everyone ,让每一个人都能享受人工智能创造的价值”,请问为了实现这个愿景,第四范式都做了哪些努力?

陈雨强:实现AI for everyone的愿景,我们首先要理解人工智能诞生的两大前提:大数据和机器学习,它们也正是构成人工智能高门槛的原因所在。

针对降低机器学习技术的门槛,第四范式设计了全流程机器学习平台——“第四范式·先知”。它通过将数据清洗、模型调参等耗时又复杂的技术自动化,让没有机器学习经验的人也能用上机器学习,用上最新的算法。我们之前进行过公司内部的试验,让公司内的行政、人事、市场、商务等非专业人士,基于“先知”平台进行建模。最终,有70%的参赛选手的模型准确率达到工业界上线水准。

对于数据量的不足,我们认为“迁移学习”是解决之道。针对于某个特定领域,迁移学习相较于深度学习所要求的数据量较少,而在同样数据量的前提下,模型效果更加准确,相当于使机器拥有人类“举一反三”、“触类旁通”的能力,能够应用于基因、医疗、石油开采等样本量相对小的领域。第四范式在迁移学习领域保持全球绝对领先优势,首席科学家杨强教授在该领域单篇论文引用量世界排名第一,创始人戴文渊排名第三。同时,第四范式还在积极研究如何进一步封装最新迁移学习技术到产品,解决工业实际问题。

飞马网:提到AI,我们想到的都是机器学习、深度学习这些高精尖的专业知识,即使是专业人才也还在不断学习研究中。而现在,“范式大学”通过培养非专业人士来解决AI人才高门槛的问题。请问这个现实吗?第四范式又是采取的哪些措施来培养非专业人才呢?

陈雨强“范式大学”项目的初衷是,我们通过短期培训,包括一些机器学习的理论知识、建模的教程等,让一个非机器学习专业的普通业务人员,能够基于先知平台建模并上线,最终解决实际的业务问题。目前我们范式大学第一期的毕业生已经完成了一个月的培训期,他们已经能够为我们各行各业的客户做出上线效果非常好的模型应用。

目前,“范式大学”系列课程已经免费公开在了先知平台上,大家可以通过先知试用版学习,也可以在平台上进行实际的建模体验。

飞马网:人工智能被认为是第四次工业革命的到来,国外IBM、谷歌等科技巨头也都在智能领域起步较早,您认为国内外人工智能的发展研究有何不同呢?

陈雨强:在技术积累上,国外在基础研究上仍处于领先水平,但中国在将产品带到市场上的能力和速度非常惊人。中国在AI关键领域,如搜索、广告等的工业应用探索早于美国。第四范式创始人兼CEO戴文渊2013年在百度负责搜索引擎凤巢系统项目,是全球首个商用的深度学习系统。

在数据量上,中国更具有优势。充足的大数据是人工智能得以生存的土壤,由于人口红利和移动互联网的迅速发展,中国沉淀了海量数据,在大数据方面更有优势。

在人才结构上,中国的人才结构是金字塔型,顶尖人才短缺;国外的人才结构是纺锤形,有大量骨干型人才支持。这种人才结构导致了国内外在技术创新上的差异——国外有充足的人才储备进行科技创新,而中国只有少数人能够进行探索钻研。所以,如何缓解当前机器学习人才匮乏的现状,让所有企业都能拥有资深算法科学家的科研能力,是关系到我国能否在人工智能领域实现弯道超车的重要课题。

飞马网:您认为目前AI的发展存在哪些问题?

陈雨强:从技术层面上说,尽管组织核心的竞争模式已经从流量为王的互联网模式、升级到了生产率贡献模式,集体投奔人工智能,但人工智能目前尚未在工业界全面落地。这是因为人工智能并不是一个“安装即生效”的软件,而需要具备必要条件“BRAIN”,这5个字母分别代表人工智能成功应用的5个必要条件,即Big data(大数据)、Response(持续的反馈)、Algorithm(顶尖的算法)、Infrastructure(基础设施即计算资源)、Needs(明确的需求)。

从人才角度来说,行业发展瓶颈在人才问题。纵观整个市场,AI人才培养的速度目前还跟不上企业发展需求。一个AI人才的培养阶段长达6-10年;此外,打造一个成熟的AI团队,除了技术外,还需要行业实践经验、默契的团队协作、实际应用场景支撑和充足的研发投入。但是这样的人才门槛、技术门槛与投入成本,确实会让很多企业望而却步。

针对以上AI的两个发展瓶颈,第四范式希望用更高效的方式,让企业在平台的帮助下,成功将AI运用到自己的行业中。我们基于过去十几年的行业经验,将机器学习过程中有可以标准化的模块进行产品化,把科研成果和实战经验封装到平台级产品中,帮助企业快速构建自有AI系统。

飞马网:数据量在人工智能研究的过程中占据怎样的地位?多少数据量才算是可以做人工智能的标准?数据量小的企业该如何应对?

陈雨强:数据量在人工智能研究的过程中占据着重要地位。一般来说,数据量越多、人工智能应用的效果会越好。但是实际上,数据量不足是普遍现象。

针对于数据量不足的问题,我们可以用迁移学习来解决。迁移学习是指将某个领域大数据学习训练好的模型,应用到与之相关联的新领域中,做到在新领域中,只需一部分数据或小数据就能实现人工智能,打破了人工智能需要大数据的限制。近两年,在人工智能国际舞台上,关于“迁移学习”的论文已经占据国际学术研究的重要席位,Google等国际科技巨头也公开表示正在探索迁移学习技术。

事实上,第四范式利用迁移学习已经取得了一些成功案例,以我们为某银行做的汽车分期贷款营销为例。在汽车分期营销方面,我们知道汽车每一笔的成交额都是非常大的,而这种订单的数量是非常少的,所以在汽车分期贷款领域很难拥有大数据。不过,我们同时还有几千万数据量级的小额交易分期数据,第四范式利用迁移学习建立的模型,将一个小数据模型迁移到大笔订单上,最后该模型上线的效果比传统模型要好200%。

飞马网:目前,我们在语音、图像识别等方面已有突破,请问,接下来,您认为人工智能最有可能从哪些行业或领域有所突破呢?为什么?

陈雨强:事实上,人工智能已经在多个领域有所突破,第四范式的客户就涵盖有金融、互联网、电信等各个领域,应用场景有个性化推荐、精准营销、交易反欺诈、差异化定价等。

未来如何判断某领域是否会转型AI,首先要看该领域或场景能否满足上述的有关人工智能的五个必要条件“BRAIN”。只要满足这五大基本要素,AI的突破口将是多方位多维度的。

飞马网:当下人工智能热潮席卷全球工业界,有人说,语音识别是其中最有可能成为第一个诞生大众级应用的技术,您怎么看呢?

陈雨强:做智能家居的语音对话,我觉得目前局限在一些场景上,形成闭环是可以的。

但我不觉得这是AI最厉害、创造最大价值的地方。即使电视没有语音交互,还是可以用,它不是刚需。AI创造更大价值的地方,在于没有它别人做不了。举例来说,有一些人现在还是没能感受到银行提供的专属服务。这不是因为银行不想为大家服务,而是不可能有那么多服务经理。人工智能可以做的就是,如果你现在有1万个服务经理,每个经理只能服务10个客户,最多也只能服务于10万个客户。但是AI可以再给你创造出1亿个机器经理,这样的话就能保证人人都有专属经理,这个就是没有AI是做不了的事情。

飞马网:对于现阶段的人工智能发展状况,请谈谈您2-3年的期望。

陈雨强:从学术界层面来说,迁移学习有望成为下一代的机器学习技术。

从工业界层面来看,产业发展需要越来越多的企业实现“AI+”,实现这个目标的过程,就是解决AI发展的五大必要条件“BRAIN”门槛的过程。包括人才的门槛,未来人工智能的贡献者不会只是科学家,而应该是大众,这是一个很大的群体。其次还有数据获取的门槛,机房、硬件等软硬件一体化设计门槛等,这是未来2-3年人工智能发展要解决的问题。

写在最后

在采访的过程中,陈雨强凭借着多年人工智能领域的深耕经历给记者最深的感受就是:深度、专业!2017年8月5日,由飞马网主办的“FMI2017国际人工智能&大数据高峰论坛”将在北京国家会议中心盛大开幕,届时,陈雨强依旧会专业、深刻地为大家分享人工智能领域前沿知识,带领我们畅想“人工智能的下个引爆点”。

008.png

【责任编辑:谭盼雨】