人工智能时代前沿技术社区

首页 > 大数据 > 热点

在人工智能时代,如何更好地发挥大数据的价值?

如何通过智能把大数据更加有效,更加能够体现它的价值?胡老师强调,其实从机器学习这几年的快速发展来看,它主要的就是数据的积累。

作者:谭盼雨 | 2017-10-09 16:45:05 | 来源:飞马网

在大数据时代,我们已经听了不少有关大数据的应用。现在,在人工智能与大数据交叉的时代,我们也不得不来谈谈智能大数据应用。在飞马网的FMI人工智能大会上,来自美国华为的Chief Architect and CTO胡鲁辉先生,就“智能大数据应用”为我们做了分享。

胡鲁辉,曾就职于亚马逊和微软总部,常年在大数据领域深耕。

4.png

大数据的变化

胡鲁辉表示,大数据从过去五年到十年间的变化是很多的。主要表现在数据量的变化。这个从数据的单位应用上已经有非常明显的表现:比如早期的时候我们可能讲几个字节、几个兆,现在讲的是TB、EB。

而大数据被采集进来以后,就需要通过数据挖掘,使数据产生价值。大数据的变化,最早可能是Batch Processing,然后Flink、Spark等流处理。胡鲁辉告诉我们,像亚马逊、微软,他们推出来云上的服务,是通过云计算这种能力,使大数据更加方便。那再往后是什么?

胡老师表示需要三个方面:就是数据、AI和云。也就是通过云计算这个强大的数据分析能力,还有智能的挖掘方法,和丰富的数据,把三方面结合起来,才能把大数据做的更好。

尽管我们经常听到有人在谈大数据,但是胡老师告诉我们,其实大数据还是刚从概念走向应用,而且产业化价值还不是很大。因此,当前重点就是下一个应该是什么能力或方法,能够帮助我们解决当前的一些挑战,能够让大数据的价值真正的发挥出来。

在胡老师看来,应该是实时大数据

因为以前我们都是从技术角度在考虑这个大数据。我们想到了批处理、流处理,我们感觉现在离线解决了,认为实时也解决了。但是,真正从用户角度考虑,他要的不是数据或者了解具体怎么处理的,用户真正想的就是通过数据怎么能够有很好的用户体验,这是最关键的。

那么,这个用户体验怎么来定义呢?可以从四个方面:

第一、实时批流计算。数据有两种,静态和动态的,动态的数据,要实时处理,但是静态的数据其实也需要能够实时处理,因为我们的想法和我们的要求一直都在变化,如何能够根据我们实际的需求,马上能够得到结果非常有价值。以前这就比较困难,因为计算方法都先弄好了,如果需要一些新的结果,可能需要一些工程师,还需要一些数据分析的人员,重新来做。但是,真正含义上的实时是可以实时批流处理,虽然你的数据很大,但是通过实时处理,很快的把结果给拿出来。

第二、随时可得。这与上面实时批流计算不同,主要体现于如何在当前巨大的数据和复杂的异构数据的情况下,可以随时方便的获得数据或某些结果,亚马逊的Athena可以说是这类服务,你可以通过SQL方式非常方便的在海量的data lake S3里面获得结果。

第三、基于数据预测。通过过去和现在的数据能够产生新的数据,这个数据是代表将来新的数据或预测结果。

第四、实时决策。这是数据价值体现的关键,也就是说大数据不只是报表或者Alert,也就是在数据驱动下的实时决策和任务执行。

数据和智能的结合

如何通过智能把大数据更加有效,更加能够体现它的价值?胡老师强调,其实从机器学习这几年的快速发展来看,它主要的就是数据的积累。

深度学习,像CNN、RNN、DQN、GAN等,深度学习需要很强的计算能力和丰富的数据,另外通过这两方面的基础,使深度学习实现可能。神经网络,尽管从算法理论上来说不是新东西,但是这几年通过计算能力和数据量的提升,使它得到实际上的改变。当然针对计算和数据的依赖,深度学习可以结合Transfer Learning、Ensemble Learning、Incremental Learning等方法来优化。另外深度学习的应用非常广泛:

* 第一,图像识别。就是Image Classification。

* 第二,机器翻译。举个例子,中文转换到英文,或者英文转换到德文,这里一般用到的技术,就是神经网络这个技术。

* 第三,Speech Recognition。现在许多chat box就是基于这个技术。

* 第四,Speech Synthesis。这个与Speech Recognition相反,就是怎么把文字转化成语音。

* 第五,深度增强学习。这个当前比较火,AlphaGo就是通过这个技术可以对环境实时的做调整和判断。

云怎么结合?从技术方面我们怎么样做,怎么通过云计算的这种技术,能够比较快速的帮助大家做智能大数据的应用。

胡老师以亚马逊为例,为我们做了介绍,比如Amazon Alexa,就是把人工智能做成一个开放性的平台,平台一边是相当于开发人员,就是开发者可以产生不同的skills,另一边就是应用,通过Voice也好,或者通过API的形式也好,可以与不同的设备连接起来。从某种意义上说,这应该是一个开放的人工智能平台,也就是说,开发者他们针对用户场景,可以定制不同的规则,定制不同的模型。然后,运用具体的能力,做一些具体的事情。就是怎么能够通过一个统一的平台,把不同的模型和不同的能力结合起来,通过一个云的平台,把开发人员和消费应用者结合起来,可以支持不同的设备,可以支持不同的解决方案。

巨大的数据下,云服务如何帮助智能大数据的应用?其实是个简单的过程,数据比较多比较复杂,可以有边缘数据采集和云上数据收集不同的结合。

另一方面,需要数据存储,数据存储以后,下一步就是通过数据分析和数据处理的方法,怎么能够把数据进行实际的分析和实际的应用。怎么通过机器学习挖掘的方法,把数据的关联性找出来,或者说怎么能够通过预测,用过去和现在的数据产生一个新的数据,是人工智能时代的关键。

胡老师以在微软做的一个大数据Knowledge Recommender为例,为我们介绍了通过大数据和机器学习的手段,实现数据的应用和价值体现。

怎么通过大数据和机器学习手段,把里面复杂的文字关系挖掘出来?从人类认知角度来讲,理解文字和里面的一些关系,其实是个比较简单的事情。但是对计算机来说,是比较复杂的。我们的云服务系统主要有三大部分:离线预处理、在线实时分析,实时结果再处理。一部分是离线的,一部分是在线的。在离线过程当中,我们基于大量的文本和信息产生知识库;在线过程当中,就是把实时的文本或者实时的数据输进来,通过一些类似的方法把文本理解以后,然后从这个知识库里进行搜索。相当于一个关系的匹配的过程。但是产生的结果,常常会有很多误差,人工智能很大一部分问题就是偏差或误差,如果都是相关的,或者没有产生副作用的还好,但是如果误导了,产生的结果可能会比较严重。第三部分我们怎么把产生的结果进行更好的过滤、优化,然后把结果变得更加准确。所以,这个系统里主要有三个大部分,在具体应用领域,我们可以做相应调整。

胡老师认为,其实智能在大数据应用的时候,有的时候分不清楚到底是大数据帮助了智能,还是智能帮助了大数据。因为智能可以是一个产品,大数据也可以是一个产品。

所以,总结起来有三个方面:

* 一方面大数据和人工智能的关系是相当密切的,通过人工智能帮助了大数据的价值实现,反过来说,有了大数据这个技术,可以让人工智能做的更好,所以两者关系相当大。

* 第二,技术在不断的变化,我们在不断的挑战技术,但是如何把大数据或人工智能的价值挖掘出来是非常关键的。

*第三,人工智能和大数据之间的关系,从一开始就相互关联,今后就是如何让他们变得的更加相关,更加结合,产生不只是1+1的价值,这是我们需要思考的,当然里面会有很多挑战,我们需要不断思考、不断探索、不断实践、不断应用。这就是今天分享的内容。

附一则胡鲁辉现场的Q&A:

Q:现在大数据里的生态产品非常多,进入这个行业的时候对未来有什么建议?还没有出现实时处理的情况下有没有一种替代方案做这个事情?

胡鲁辉:第一个问题,很多大数据的研究开发者也都在思考这个问题,比如如何把使用成本降下来,大家可能在寻找一个工具和方法,来解决所有的问题。但是,困难比较多,像亚马逊和微软,微软的想法常常想通过一个统一的软件或者解决方案做不同的事情。而亚马逊的方法不一样,它是针对一个能力,针对一个方法提供一个或一组工具。其实大数据要从三个维度来选择产品。第一个维度就是数据阶段,有数据产生,数据采集,数据存储,数据计算,数据分析等等。第二,数据温度,分冷数据,温数据和热数据。还有是数据速度,就是数据处理和计算的速度。举个例子,如果每个礼拜产生的数据很大,可能就是1EB的数据,如何找一个成本比较低的计算方法,回到原来这个问题,我们怎么选择工具呢?所以我们要从这三个维度考虑。无论云服务产品,还是开源工具也好,我们需要从这三个维度去分析比较。

第二个问题,这首先是思想的转变,如何更多的从用户体验角度来考虑,而不是技术,我们可以从两方面去思考,一方面从数据本身本质和特性方面去考虑,还有怎么能够给用户产生更好的体验,和用户真正的需求结合起来。