人工智能时代前沿技术社区

首页 > 人工智能 > 热点

第四范式胡时伟:要进入AI领域,你必须要知道这些事

随着越来越多的企业开始往AI转型,在AI领域布局,不仅让人有些许担心:会不会太过热了?会不会有跟风的嫌疑?转型AI前该进行哪些思考呢

作者:谭盼雨 | 2017-09-25 11:30:57 | 来源:飞马网

有人说,2017年是人工智能元年,也有人说,现在已经进入到“AI+”时代了。不可置否,继5月份柯洁大战AlphaGo事件掀起的AI空前的关注度后,7月份国务院正式印发的《新一代人工智能发展规划》更是标志着人工智能从国家层面上得到了认证!

随着越来越多的企业开始往AI转型,在AI领域布局,不仅让人有些许担心:会不会太过热了?会不会有跟风的嫌疑?转型AI前该进行哪些思考呢......

对此,飞马网记者在FMI人工智能大会现场对第四范式联合创始人、首席架构师胡时伟进行了深入专访,听他讲述企业在转型AI领域前,需要知道的那些事。

1.png

胡时伟

飞马网:胡总您好,请您简单地给我们介绍一下您在大会上的演讲内容。

胡时伟:我今天讲了两个内容,一个是介绍了一下我们在行业当中利用机器学习平台产品,如何去解决行业当中的问题,以及解决问题当中的一些关键点,特别是采用AI去解决问题的一些先决条件。另外一个是讲我们在做机器学习平台过程当中内部的技术实现和一些技术优化的方向。

飞马网:您认为目前AI的发展存在哪些问题?

胡时伟:我觉得现在其实就AI要产生效果其实有三个条件:第一要有数据,第二要有场景,第三要有人才。现在来看的话,具备数据和场景的虽然说少,但是各行各业加起来还是有一定的存量,也就是说AI可以在很多领域给生产上提供到作用。但是现在主要的问题是人才过于匮乏,这些人才包括从经营层面上对AI理解,理解如何把现有的业务模式转化成适合AI的,比如说现在是一个通常是宏观考虑问题,但是转变成AI的话可以千人千面,每个业务的千人千面是什么,这方面的人才是比较缺少的,但更缺少的人才是即使我定义好了问题之后,依然是由于缺少系统搭建的人才,缺少建设模型的人才,以及缺少对数据理解以及系统上线的人才。通常来讲,一个企业如果自己从头完全把这些事情做完,即使在有开源框架和公开市场支持的情况下还要接近十多个人的团队半年多的建设,这个成本对很多企业来讲依然非常高。

另外还有一点,现在一些新媒体,或者一些公众的理念,如何用AI解决工业问题上有一些误导。比如特别多地推荐从理论上甚至从论文上去直接地搬过来解决工业的问题,实际上学术界和工业界依然有很大的差别,虽然有很多学术界的大牛在工业界有很好的成绩,但是这并不意味着任何一个工程师和IT的从业人员看完论文都可以解决问题,我认为相关的系统、产品、云服务还是不太到位,包括培训的方向和培训的资料。

飞马网:目前的学术界和工业界在AI落地应用方面有哪些差距?

胡时伟:坦率来讲AI工业界的落地应用除了基于神经网络比较好用的,利用开源现成的代码可以解决一些图象的问题,或者是文本翻译类的问题,其实那些也是少数人做完了之后大多数人拿来用用,更广大的像金融、推荐,甚至包括像AI的传统优势领域应用比较广的领域,像计算广告的领域里,现在行业的应用还处在比较初级的水平。

飞马网:您觉得数据量在AI的发展之中占有什么地位呢?

胡时伟:数据和计算能力在AI,特别是最近一拨发展,几乎是在决定性的位置。今天的深度学习的理论包括一些机器学习方面的理论,当然有很多革命性的创新和进展,但是从理论角度上来讲并不是最近才被提出来的,为什么在过去不奏效,在现在奏效,主要是由于互联网的发展和大数据的发展,以及像一些分布式计算的发展。数据这件事情在将来AI发展过程中会持续起到决定性的作用。

飞马网:那些想进入AI领域但是数据量小的小型企业该怎么办?

胡时伟:首先数据量少,我认为是今天的数据量少,其实对将来来讲数据量多与少取决于收集数据的能力,而不是今天存储了多少数据,现在各行各业都在做互联网+,一旦把线下的流程搬到线上,大部分的过程都会变得数字化,哪怕从今天开始收集,只要企业的IT信息化足够到位,数据量会有一个保障,所以说我认为所谓的只有小数据对于大多数行业都是今天只有小数据,在进来只要它完成经营理念上的转变,IT系统的转变,收集足够AI产生作用的数据是一个会有变化的过程,虽然到足够,我觉得这个事情没有到足够的那天,就跟人学习知识永远没有说我学够知识的那天,到AI可以起到作用,可以在生产上面产生效果,我相信在很多的领域里都是非常值得期待的。就像刚刚讲到的,对于理解AI的人才会有一个比较高的要求。

飞马网:对于有效数据筛选的这块您有什么好的建议呢?

胡时伟:这个问题,其实它的本质是我存了特别多的数据,但是我没有获得存这些数据,或者我期望对应的生产上的产出或者经营效益上的产出。您刚刚也讲到我们如何筛选这个数据,刚刚也讲到我们在用数据、建模过程中的筛选、采样、找重要特征、模型的折叠、多个小模型的集成,这一切在我们看来最根本的原因是因为工程和系统能力不足,换句话说如果我们的脑容量不足一天只能看三本书需要筛选,但是我一天能够看三百本书的话,筛选就不是一个大问题,我认为其实不应该去考虑如何筛选数据,而应该考虑如何能够尽快地提升计算能力。提升计算能力之后利用数据的效率就会变高,因为让机器来决定哪些数据要筛选哪些数据不要筛选,不是让人决定,这也是我们一直努力的方向,也是现在产出一些成果。

飞马网:现在大大小小的企业都往在AI领域布局,进入AI之前他们应该进行哪些方面的考虑呢?去有目的性地进入而不是盲目的跟风?

胡时伟:还是从五个条件来讲,我觉得需求是最重要的,而且需求这件事情是可以预先分析得到的。比如分析他的经营方式和客户的触达方式,收集数据的可能性。我想一些企业内,像CPO这种级别的人才,在这个问题是可以得到答案的,如果得不到答案我们可以先来定义这个问题,定义完问题之后,这个问题就变成了我们如何做一个有效的模型来解决经营上的问题或者生产上的问题,这个过程我们是建议还要从效果出发解决。这里面最重要的问题是在于招什么样的人,应该怎么搭建团队,应该选用什么样的算法,选用开源还是?现在对多数企业来讲并不具备自主研发的可能,就是我们选择什么样的开源算法去做这样的事情,这方面我的建议就是尽可能地以比较低的成本现场实现一些已有的服务,像我们提供的一些零成本公有云上的尝试,或者是用一些其他的平台或者开源的工具去做一些尝试,但是这个是比较困难的问题,我觉得这个问题是阻碍大多数行业使用AI,太多种说法,太多种方向,太多种可能能成功的地方,但是它是没有那个模式或者那个人才去帮他的企业去做,这点我们还是推荐可以采用一些像端到端的平台,至少可以得到一个结论叫作我付出很少的成本到底能达到什么样的效果。我觉得这个是比较推荐的,先去做这些尝试。

飞马网:您如何看待国内人AI发展的差距?

胡时伟:您讲到的大家觉得国外的AI比国内好一点,我个人不是特别认同这种说法。相反AI是华人在这个领域里,目前来看甚至是占有一定的优势。我们仔细分析会发现,无论是国外还是国内,在AI各个实践领域里做得比较好的华人的比例非常大。国内的AI公司,就第四范式做的低门槛的机器学习,让普通的工程师也能够在可控的成本之内做到机器学习,我们觉得第四范式在世界范围内是领先的水平。弯道超车这个事情可能现在已经不是全面的落后,虽然从PR的角度讲,我们发现围棋是国外第一个做的,星际争霸是国外第一个做。我们现在跟国内的医疗机构合作,比如用人的历史体检数据预测糖尿病,或者是用一些深度学习的方式预测古文,相当于宗教列与的合作去翻译古籍,就像翻译《大藏经》,我觉得现在已经达到了国际领先水平。

另外还有一点,刚才您也讲到了AI时代在将来有两个方向非常重要,一个是数据,一个是人才。数据,中国是天然的有优势,这个优势已经在移动互联网的层面体现的淋漓尽致,因为我们的人口众多,我们的行业技术是非常大的。比如美国的公司是全球化的,脸书有全球的数据,但是它全球的数据和新浪微博的数据未必有量级上的差距。甚至在银行领域,为什么我们说第四范式在银行做了大量的案例,我想这些案例都是全世界独一无二的。像我们合作伙伴里边的国有的这些银行,一般来讲我们叫宇宙第一大行,无论是它的资产规模还是用户规模,真的已经是世界上最大的数据来源,我们现在在做的模型应该就是在金融领域里面全世界最好的AI模型。从数据的角度来讲,中国是非常有优势的,特别是像现在政府的大数据战略,其实对AI是非常有力的支撑。

从人才的角度来讲,像机器学习领域,他们都在讲将来非常重要的方向是迁移学习,我们光有单个领域大规模的数据还不够,其实不同领域的数据迁移、特征的迁移、样本的迁移甚至是模型的迁移,都是将来打破各个数据通道的非常重要的手段。在迁移学习的领域里,像我们公司的科学家杨强老师,其实他是迁移学习里面学术成就最高的人,我们创始人戴总也是迁移学习领域成就排在第三名,在迁移学习这个领域里华人牢牢把握住了,是有优势的。排名第二的就是吴恩达老师。无论从数据还是人才的角度我们都是非常有优势的,可能有一些已经在领先了。

飞马网:在第四范式服务客户的过程中,哪些行业对AI的需求比较旺盛呢?

胡时伟:我理解需求旺盛和准备好是两件事情。从需求旺盛的角度来讲,越是小范围的对AI的技术就旺盛。我们举个例子,像现在为什么计算机视觉领域那么多,中国有多少的夫妻店超市,但那些超市里的防偷盗都用什么解决呢?显然不可能像大商场一样雇一个人来解决,越需要重复性的人来解决的地方就需要AI,因为AI就是机器人。越需要重复性劳动的劳动力越需要。比如说我们在银行里做到了反欺诈,或者像进谏的审批。

但从准备好了的条件来讲,反而是互联网化程度比较高的,再现化程度比较高的企业,比如像电商,像内容支持付费,像现在比较火的直播、社交、游戏等等,因为数据收集的条件非常好,所以用AI比较合适。最需要AI的地方不一定有最多的数据,所以我们一直在讲像迁移学习这样的技术在未来会是下一个突破口。

飞马网:对于想进入AI领域的同学们,请您给他们提一些建议。

胡时伟:在这个领域里真正的工业界应用,几乎作为的精力、所有的投入,公司层面人的投入都在一件事情上,刚刚我做讲座的时候一个重要的事情就叫特征工程。第四范式做的平台也基本上完全是为了让大家能够比较简单地做特征工程去服务。什么是特征工程呢?AI就是用数据产生智能,特征工程就是人知道机器用数据产生智能的一个教学方法。特别是做大数据的工程师,或者是做数据产生驱动相关的工程师来讲,其实我对他们的建议,或者我们共同要努力的方向是共同地把特征工程这件事情做好,而不是把精力都放在如何用模型去解决问题上,刚刚在讲完之后也有现场的朋友提问,其实我觉得这个是很多人的混或,我用神经网络去解决问题,我做不好怎么办?对这个问题最直接的答案是我们要看大多数问题,其实可以不用神经网络来做,而是用一些非常静电的,但是维度特别高的机器学习算法加上非常合理恰当的特征工程来做就可以做到。

我们以前在搜索公司里做搜索广告的时候,通常会发现,基本上来讲单靠深度神经网络,根本达不到简单的算法加上特征工程的效果。最后我们是怎么用上深度神经网络,是把这两件事情综合起来,站在高维机器学习的肩膀上,才可以产生效果。对大家的建议其实反而是真的把目光放在数据本身,而不是放在模型、数学、理论上,因为这件事情的难度还是相对来讲非常高的,而我们实际上并不是为了发展论文,而且为了解决实际问题。

飞马网:您有提到一个词就是“特征工程”,给我们解释一下是什么意思?

胡时伟:特征工程是说,机器并没有那么的聪明,本质上来讲机器是暴力地去分析和计算。我们举个例子,正常情况下,对于男士和女士会给大家推荐不同的衣服,什么叫特征工程呢?我们要判断把衣服分成不同的特点,比如说它有没有领子,有没有袖子,它是裙子形式还是裤子形式,花边数量的多少,这些都是特征。我们要考虑怎么给一个人推荐衣服,就是要找到这个人的喜欢和变量之间的关系。机器要做的事情就是不停根据历史上谁喜欢什么样,谁喜欢什么样,产生一个模型,叫这些变量和最终结果之间的关系是什么,特征工程就是把这些变量找出来。我们知道原始存放在数据库里的数据,它不一定是直接和最后的变量产生线型模型,所谓的特征工程就是把原始的数据进行一定的量化,比如分些组,或者做离散化的处理。本身我们买车,车的价格是十三万五千,那么把它分成十三到十六万档,把原先的价格变成一个档位,这就是特征工程。这个特征工程就把这件事情做了,就要求人对数据有比较深的理解,人要能够有能力通过程序对数据进行处理,因为这个是海量的数据要进行变换。我们的数据科学家,我们自己也有数据科学为我们的客户服务,他们做的过程当中,极大量的工作就是在做从原始的数据到机器能得懂的数据的变化过程,这种过程,我们在产品上面也做了很多的功能来辅助这个过程。在我们公司有一个叫范式大学的计划,其实就是教像您讲的有兴趣的,想要转向AI行业的同事,让他们能够做出好的东西,其实我们给他们培训最多的事情是如何做好特征工程。

飞马网:您觉得AI技术人员能否像安卓、java培训几个月就能速成?

胡时伟:我觉得这是灰度的问题不是零和一的问题。就以我们经历过的事情为例,在我们公司刚成立的时候,大概是在两年前,那个时候我们必须要从互联网公司聘请其实已经在做机器学习比较好的专家,才能服务得了我们的客户,但是今天通过范式大学的计划我们已经可以招到一些理解力比较强、学习能力比较强的普通的工程师,他们其实和两年前的专家一样也能够完成像银行领域的营销问题、精准的定价问题或者智能业务问题。

未来能不能像今天我们也可以依托培训机构大批量地培训出AI方面的专业机能人才,我觉得这件事情需要两个条件,第一个条件是有更多的场景和数据,各个企业随着移动互联网的转型收集到一定的数据,数据量达到一定程度,第二个条件是要有好的技术,在这个领域里我们想完成有好的产品的技术人员的方面,可能企业自身是要完成数据的积累和问题的定义这个部分。我们的目标就是要做AI时代的表格,我们有一个原始的表,人在里面对数据进行函数式的定义,然后指出目标,就能够完成一个系统,并且这个系统不限于表格,而是产生一个动态的自我学习的模型,并且让别人能够访问到。如果把这些部分,像今天先知平台的发展把它作为一个中间件,今天为IOS的同事和会java的培训朋友就可以像今天用MY SQL或者用云计算平台一样的方式,能够用到一套机器学习的云服务就能够搭建出应用,这件事情应该在一两年之内,在一些行业,比如像金融,或者像一些推荐行业,就能够成为现实。在三五年之内,当数据的问题解决之后,应该在更多的领域变成现实。

飞马网:关于AI里面的许多分支,比如人脸识别、语音识别等,您自己更看好哪个方面的发展?

胡时伟:我觉得今天AI就是由商业驱动的,为什么人脸识别和语音成为了今天最火的领域呢?是因为在今天来讲解决了输入、输出的问题,识别图象其实是解决一个人机交互的问题,其实它的解决可以把大量的传统行业一下子就能够变成,其实它不是变成AI可以解决的,而是变成信息化,在这个过程当中AI只是解决了一个小问题,如何把现实当中的模拟数据变成一个数字化的,而且不是那种非常不可解释的,需要人去解释,而且变成一个抽象的概念。我想AI将来并不是一个在某个领域解决问题,我相信当作为的行业都由今天的视觉、语音完成了数字化,或者是特征华之后,其实AI可以在所有的判定性领域里解决问题。比如AI可以代替人做一些危险的事情,甚至做一些重复性的创造性事情。

什么叫重复性,比如说我们讲到一个艺术家画一幅画,这讲到文明的追求,那件事情AI即使能模仿也是不能超越的。但是比如我们家里要装饰一下,墙上挂的画随心情喜欢,那件事情不是艺术的事情,我觉得这些事情AI都能解决。从这个角度来看,我经常有一个比喻,叫作今天的AI行业未来会很美好,但是谁都不知道2014年世界会变成这个样子,五天之后是什么样子非常值得大家共同取代,所以我觉得我无法判断,每个行业每天都有非常神奇的事情在发生。

飞马网:请谈谈您个人对AI的期待。

胡时伟:我个人从事这个行业,从我们自己来讲,公司的愿景叫作“AI For Everyone”,其实对我的期待也是您刚刚问到的问题。其实我是一个从很早开始开发系统、开发应用程序,其实我是希望未来每一个今天用java开发应用程序的工程师、产品经理,在将来他们所开发出来的应用程序后面其实都有一个非常强大的AI力量。今天我们开发出来的程序可以极大地节省人的损耗,或者提升人的效率,我想进来每一个工程师背后都有一个AI军团。就比如像我们开发出来的,无论是在风控、反欺诈,甚至像游戏领域里,今天的开发者将来都能开发出AI的应用,这是我个人期待能做到的事情。希望我们自己去给大家提供一个平台性的产品,让大家能够在上面能够解决所有行业的问题。从我个人来讲愿景就是以后各个的行业背后都是AI来驱动的。

飞马网:您觉得一个优秀的AI技术人员应该具备哪些素质呢?

胡时伟:我觉得分成两点。如果是像第四范式的AI工程师,我们去做平台性的AI工程师其实要有非常强的系统架构的能力,就是工程能力,对机器学习算法的理解能力。如果是业者,要有非常强的业务理解能力,能够定义出问题,能不能用AI解决,以及有非常高的数据敏感度和对数据进行操作和理解的能力,其实也就是大数据的一些标准能力。在将来如果AI的算法、平台的解决方案成熟之后,今天大数据的工程师就是将来的AI工程师。