首页 > 大数据 > 热点

专访京东万象杜宇甫:研究大数据,不一定非要用自己的数据!

有人说,如今已经进入到“AI+”的时代了。回顾过去,我们发现,不管是“互联网+”、“大数据+”,还是今天万众瞩目的“AI+”,它们都有一个共同点:都离不开数据。这也是为什么我们在谈人工智能的时候,往往也要谈大数据的原因。

作者:谭盼雨 | 2017-08-03 13:25:23 | 来源:飞马网原创

2017年已经过半了,从年初到现在,我们目睹了人工智能的持续升温过程。不仅资本市场和各大巨头们纷纷在人工智能领域布局,而且国家层面也在努力推动人工智能技术的革新。据了解,7月20日,国务院印发《新一代人工智能发展规划》,提出了人工智能产业发展“三步走”蓝图,以及未来我国人工智能产业战略目标。

甚至有人说,如今已经进入到“AI+”的时代了。回顾过去,我们发现,不管是“互联网+”、“大数据+”,还是今天万众瞩目的“AI+”,它们都有一个共同点:都离不开数据。这也是为什么我们在谈人工智能的时候,往往也要谈大数据的原因。

2017年8月5日,由飞马网主办的“FMI2017国际人工智能&大数据高峰论坛”将在北京国家会议中心召开,届时,将会有来自eBay、搜狗、科大讯飞、京东万象、第四范式等企业的多位AI技术专家,带着他们独到的见解及实践经验,分别从产业应用、研究、实践等多维度与大家分享AI与大数据的新思路。

飞马网记者对即将参加大会演讲的京东万象总经理杜宇甫进行了专访,让我们先睹为快,探听数据流通方面的心得。

111.png

杜宇甫

杜宇甫,京东万象总经理,负责万象数据服务商城整体业务规划及系统架构设计。曾担任京东云JOS开放服务平台资深架构师、京东云首席数据架构师,并长期关注数据信息安全、数据集成脱敏、数据等级评估、数据流通交易以及新兴创新型技术,是云计算、大数据领域的专家。

大数据与AI的关系

前几年,我们都还在张口闭口谈大数据,而现在,人工智能成了技术领域频频提及的重点词语。那么大数据跟人工智能之间又有什么联系呢?

杜总给我们形象地解答了这个问题:如果把AI比作一个人的话,那么大数据就相当于一个学校。AI要想变得更聪明,必须通过大数据来学习和训练,才能实现真正的智能化。归根结底,对于人工智能来说,最重要的其实就是数据。

并非所有的数据都叫“大数据”

虽然数据是研究人工智能的重要因素,但这并不意味着任何数据都有价值。因此如果企业想要利用好大数据,让数据产生价值,则必须具备能够从海量的数据中筛选出有效数据、摒弃无用数据的能力。

那么问题来了:企业该如何在海量数据中甄别出有效数据呢?

对此,杜总告诉我们,由于企业业务模式和所处行业环境的不同,目前没有标准化可复制的方法来有效鉴别数据。对一个企业有用的数据,对另一个企业不一定有用,大家只能不断地去尝试;同时,可以从同行的成功或失败案例中总结经验、教训。

京东万象非常重视数据甄别,一方面会定期举行线下沙龙,邀请各企业负责人在数据分析、鉴别及应用等方面进行沟通和交流;另一方面京东万象在线上做了数据图谱,在企业购买数据的时候,将行业与数据、业务与应用场景建立起链接,为企业关联推荐有效的数据。

做大数据研究,数据量小了怎么办?

相信这是很多中小企业的担忧,在大数据时代,数据量不够大该怎么办?杜总表示,研究大数据,不一定要用内部数据,可以通过外部的数据来辅助自身业务。而这也正是京东万象存在的价值。

很多企业拥有的只是大量数据,而不是有效的大数据。让数据产生价值并进一步为企业赋能,才是大数据的意义所在。而京东万象可以为众多企业提供一个数据平台,让大家都能够通过提供有效数据的方式为企业赋能,辅助企业经营决策。即使企业没有数据,只要企业有想法,都可以来京东万象,找到想要的数据和解决方案,甚至可以在京东万象参考其他企业的经验,降低试错成本。总之,京东万象的目标就是让没有大数据的企业,也能够享受大数据带来的创新与赋能。

大数据的发展瓶颈-数据共享与流通

进入大数据时代已经有好几年的时间了,大数据行业的发展大致经历了几个阶段:从最开始的发现大数据,到慢慢地使数据产生价值,再到今天的数据行业化应用、场景化解决方案的实际落地,大家逐渐开始考虑更深层次的因素。在今天,单纯做大数据并不独特,但是专门钻研某一行业或某一领域的大数据技术是非常可贵的。因此大数据的行业化、场景化也必将是未来的一个趋势。

在大数据分析技术已经趋于成熟的今天,大数据的发展还存在哪些问题呢?杜总认为,目前大数据领域的最大瓶颈是“数据共享与流通”。各个企业还是各自留存和使用内部数据,不愿意与其他行业和企业进行数据的交换共享,这其实并不利于大数据研究。

而对此,京东万象也提出了解决方案,可以让企业放心地提供核心数据。京东万象通过数据脱敏、区块链、训练数据模型、数据联通等技术来打造一个数据平台,致力于使数据发挥出最大价值,助力企业发展。

数据安全

提到数据安全,杜总告诉我们,数据安全有两方面,一方面是数据存储的安全,即如何更好地保护内部数据;另一方面是数据在流通过程中的安全。

京东万象在数据流通过程中采取了脱敏、加密、数据溯源等手段来保障数据安全。另外,京东万象的数据DNA技术,通过各种加密方式,基于区块链,在脱敏过程中将数据坐标化,并对每条数据进行溯源,还原出这个数据总共有多少条、是否被打开过等信息,从而来切实保障数据安全。

数据流通行业需要“破界”

杜总告诉我们,在数据流通行业中,大家往往更关注的是交易,很少有人在技术方面做努力。京东万象之所以提出“破界”,是希望能够利用技术的力量促进数据流通行业更好、更安全地进行交易。而该从哪些方面着手开始“破界”呢,杜宇甫将在8月5日的“FMI2017国际人工智能&大数据高峰论坛”上详细为大家讲解。

在整个数据生态中,京东万象将自己定位为一个服务者,而不仅仅是一个平台。比如利用区块链等技术建立数据流通当中的安全标准,来保障数据的安全流通,加速数据的赋能。

写在最后

对于即将到来的“FMI2017国际人工智能&大数据高峰论坛”,杜总认为AI的“概念阶段”已大致成为过去式,我们基本上都对AI有了一定的认识,接下来是“务实阶段”,我们要真正地利用机器学习、深度学习等将人工智能技术落地到实际应用。

在炙手可热的人工智能领域,京东万象当然也有自己的想法,据杜总介绍,京东万象除了有安全大数据行业专家、云计算专家之外,还有人工智能专家专门进行“哪些数据更适合进行机器学习”等研究,京东万象不仅要做大数据时代的“赋能者”,更要做AI时代的“赋能者”。

【责任编辑:谭盼雨】