人工智能时代前沿技术社区

《运维e站》—海量数据时代,运维一马当先
举办时间:2017-09-23 13:30
活动地址:北京海淀中关村鼎好大厦A座3层-太库孵化器

《运维e站》第一期:海量数据时代的运维进化之路

在互联网时代,运维工作一直是每个互联网企业的重中之重,纵观整个互联网发展的不同阶段,我们发现,运维工作一直是被不同阶段的互联网特点及主流技术所驱动着。在大数据时代,单靠传统的运维方法已经无法满足数据量激增的运维需求,运维被数据量驱动着;同样,在今天的AI+时代,智能、算法频出,运维工作又有了新的挑战,被各种算法驱动着。

尽管不同阶段的运维挑战与需求都不尽相同,但相同的是每个阶段的运维工作,都不是一帆风顺的,都遇到过各种“坑”,在磕磕绊绊中发展。2017年9月23日,飞马网联合日志易在北京中关村组织了线下沙龙,沙龙主题是“海量数据时代的运维进化之路”,邀请了四位业内资深运维专家,为大家讲解在人工智能时代下被算法驱动的运维实践及运维过程中遇到的那些坑。

日志易产品总监饶琛琳---《算法驱动下的运维实践》

1506405686112571.png 

日志易产品总监饶琛琳为我们介绍了在算法驱动下的运维实践。据饶Gartner报告显示,基于算法的IT运维平台(Algorithmic IT Operations Platforms,以下简称AIOps),至2019年,全球有25%的企业将搭建好自己的AIOps平台,而目前是不足5%。

AIOps平台之所以会受企业欢迎,是因为它自身有着极大的优势所在:

一、更灵活、更易用的访问和分析数据;

二、能分析过去散落在各组件中未利用上的业务数据和上下文;

三、快速的探索和实验平台,提供独特的洞擦力。

而AIOps的架构构成则是由数据湖、自动化系统、记录系统、交互系统、监控生态圈组成。

对于AIOps的态度,饶琛琳告诉我们:

我们不需要一个机器学习平台我们需要机器学习的运用。

而目前各 APM 厂商在人工智能领域还处于尝试和探索阶段。主要利用人工智能和机器学习解决的用例包括以下方向:商业智能、异常检测、归因分析、智能警报、未来预测、能力分配、数据概要、自动化、主动监控。

1506405064320070.png

 

1506405077587168.png

 

在演讲最后,现场听众中有位小伙伴提出了一个问题:要实现智能运维,必须要有大量数据去让机器学习才行,那数据量小的企业该怎么办?是不是就不必要推行智能运维?

对此,饶琛琳从三个方面进行了解答:

一、首先CMDB这个东西,是你要在有第一台机器的时候就应该准备的。越是小环境的时候,越有复杂度的需求;

二、业务爆发是不可控的,需要做一些储备;

三、做运维监控的时候,你不止要操作好机器的状态,整个运维发展的趋势是大家要把精力放在服务上。要想做一个好的运维,要去关注业务运营,才能去做更好的运维。

搜狗高级研发工程师韩振华---《搜狗Docker on Yarn容器管理平台实践》

图片4.png

来自搜狗大数据平台部的韩振华,为我们介绍了搜狗海量数据存储和计算平台及数据分析系统的技术选型及其应用。

传统应用部署存住的痛点无外乎就是我们常说的那几种:运行环境复杂、稳定性差、维护成本高、扩展性差等,而同时容器docker的优点又是显而易见的:轻量、弹性、高性能等,这也就是为什么有越来越多的企业选择用容器部署的原因。在这里,韩振华老师为我们建议了几张使用Docker的方式:

* 修改代码重新build Image

* 尽量不使用docker commit

* 通过volume持久化数据

1506405135137224.png 

  Docker在搜狗的应用如下所示:

     1506405146299888.png

 

技术选型---微服务设计原则

* 小:按照业务职责设计、高内聚;

* 轻:接口管理、数据协议;

* 松:低耦合;

技术选型---编排系统选择

* Mesos:较为完善的长服务解决方案,包括服务发现,负载均衡,资源调度等。满足特定业务需要二次开发,成本较高。整套解决方案的开发语言较多。

* K8s:理念先进复杂,功能相对完善复杂。满足特定业务需要二次开发成本高。

* Yarn:一定的技术积累,Hadoop集群结合支持统一集群调度,功能不完善,需要开发服务发现,Load Balance等基础功能

Clotho系统总体框架图如下:

1506405189838086.png

 

1506405203801251.png

 日志易技术总监杜卫普---《智能运维与海量日志分析》

1506405255128213.png

 

首先,杜卫普为我们通俗得解释了一下智能运维的概念,就是把机器学习、人工智能应用在运维领域,简单来说就是:智能运维 = 机器学习 + 大数据。其中智能运维包含三大模块:服务台、自动化、监控。

据杜总解释,智能运维的架构依然是按照数据采集→数据存储→数据分析→数据展现的形式搭建。

ITOA 四种数据源的比较如下:

* 机器数据(日志):日志无所不在,但不同应用输出的日志内容的完整性、可用性不同。

* 通信数据(网络抓包):网络流量信息全面,但一些事件未必触发网络流量。

* 代理数据(嵌入代码):代码级精细监控,但侵入性,会带来安全、稳定、性能问题。

* 探针数据(模拟用户请求):端到端监控,但不是真实用户度量。

图片11.png

 

1506405280389867.png

 易维科技联合创始人任发科---《细数开发运维的坑》

1506405303783909.png

任发科在演讲中详细为我们介绍了运维的演讲过程及其运维工作中常遇到的“坑”,其中最常见的坑有以下几种:

坑一:DevOps由立场决定。Devops没有一个明确的概念说明,不同立场的人理解devops会不同。而真正在构建的时候,目标环境与测试环境一致,最大限度地消除他们的不一致成为了关键。要跳出本坑的关键就是:知问题,看疗效,以研发侧为始终。

坑二:同源。跳出本坑的关键是:不要用代码库做制品库!

坑三:一致性。跳坑指南:部署版本化、全流程版本化、需要引入并管理元数据、构建工具的版本要追踪等。

坑四:双部署。跳坑指南:同步部署、Docker与不可变部署、构建环境不一致仍存在、构建环境也Docker化。

坑五:Docker的效率。反馈越快,价值越高,Docker参与的效率如何?JENKINS承担了太多职责。

坑六:脚本驱动。跳坑指南:关键工作系统化,专属系统可以处理更细节的工作,将编程性工作变成配置性工作。

坑七:兼容性检查。跳坑指南:语义化版本+测试+构建系统。

坑八:只工作无数据。跳坑指南:基于开源的工具链体系需定制。

坑九:涉及角色多。跳坑指南:测试人员和测试工作的定位,运维人员和运维工作的定位,交出应用运维,专注本职。

坑十:全线不拉通。跳坑指南:传统运维关注在点,场景化运维、智能化运维全生命周期管理。

在演讲最后,任发科送给了现场听众一些做运维的经验总结:

研发侧目标是ADPaas,运维侧目标是智能自治系统,先利用开源,需要时自研,要一人多能!

1506405322119718.png

 

 

 

【本次活动回顾】

《运维e站》第一期:海量数据时代的运维进化之路

在互联网时代,运维工作一直是每个互联网企业的重中之重,纵观整个互联网发展的不同阶段,我们发现,运维工作一直是被不同阶段的互联网特点及主流技术所驱动着。在大数据时代,单靠传统的运维方法已经无法满足数据量激增的运维需求,运维被数据量驱动着;同样,在今天的AI+时代,智能、算法频出,运维工作又有了新的挑战,被各种算法驱动着。

尽管不同阶段的运维挑战与需求都不尽相同,但相同的是每个阶段的运维工作,都不是一帆风顺的,都遇到过各种“坑”,在磕磕绊绊中发展。2017年9月23日,飞马网联合日志易在北京中关村组织了线下沙龙,沙龙主题是“海量数据时代的运维进化之路”,邀请了四位业内资深运维专家,为大家讲解在人工智能时代下被算法驱动的运维实践及运维过程中遇到的那些坑。

日志易产品总监饶琛琳---《算法驱动下的运维实践》

1506405686112571.png 

日志易产品总监饶琛琳为我们介绍了在算法驱动下的运维实践。据饶Gartner报告显示,基于算法的IT运维平台(Algorithmic IT Operations Platforms,以下简称AIOps),至2019年,全球有25%的企业将搭建好自己的AIOps平台,而目前是不足5%。

AIOps平台之所以会受企业欢迎,是因为它自身有着极大的优势所在:

一、更灵活、更易用的访问和分析数据;

二、能分析过去散落在各组件中未利用上的业务数据和上下文;

三、快速的探索和实验平台,提供独特的洞擦力。

而AIOps的架构构成则是由数据湖、自动化系统、记录系统、交互系统、监控生态圈组成。

对于AIOps的态度,饶琛琳告诉我们:

我们不需要一个机器学习平台我们需要机器学习的运用。

而目前各 APM 厂商在人工智能领域还处于尝试和探索阶段。主要利用人工智能和机器学习解决的用例包括以下方向:商业智能、异常检测、归因分析、智能警报、未来预测、能力分配、数据概要、自动化、主动监控。

1506405064320070.png

 

1506405077587168.png

 

在演讲最后,现场听众中有位小伙伴提出了一个问题:要实现智能运维,必须要有大量数据去让机器学习才行,那数据量小的企业该怎么办?是不是就不必要推行智能运维?

对此,饶琛琳从三个方面进行了解答:

一、首先CMDB这个东西,是你要在有第一台机器的时候就应该准备的。越是小环境的时候,越有复杂度的需求;

二、业务爆发是不可控的,需要做一些储备;

三、做运维监控的时候,你不止要操作好机器的状态,整个运维发展的趋势是大家要把精力放在服务上。要想做一个好的运维,要去关注业务运营,才能去做更好的运维。

搜狗高级研发工程师韩振华---《搜狗Docker on Yarn容器管理平台实践》

图片4.png

来自搜狗大数据平台部的韩振华,为我们介绍了搜狗海量数据存储和计算平台及数据分析系统的技术选型及其应用。

传统应用部署存住的痛点无外乎就是我们常说的那几种:运行环境复杂、稳定性差、维护成本高、扩展性差等,而同时容器docker的优点又是显而易见的:轻量、弹性、高性能等,这也就是为什么有越来越多的企业选择用容器部署的原因。在这里,韩振华老师为我们建议了几张使用Docker的方式:

* 修改代码重新build Image

* 尽量不使用docker commit

* 通过volume持久化数据

1506405135137224.png 

  Docker在搜狗的应用如下所示:

     1506405146299888.png

 

技术选型---微服务设计原则

* 小:按照业务职责设计、高内聚;

* 轻:接口管理、数据协议;

* 松:低耦合;

技术选型---编排系统选择

* Mesos:较为完善的长服务解决方案,包括服务发现,负载均衡,资源调度等。满足特定业务需要二次开发,成本较高。整套解决方案的开发语言较多。

* K8s:理念先进复杂,功能相对完善复杂。满足特定业务需要二次开发成本高。

* Yarn:一定的技术积累,Hadoop集群结合支持统一集群调度,功能不完善,需要开发服务发现,Load Balance等基础功能

Clotho系统总体框架图如下:

1506405189838086.png

 

1506405203801251.png

 日志易技术总监杜卫普---《智能运维与海量日志分析》

1506405255128213.png

 

首先,杜卫普为我们通俗得解释了一下智能运维的概念,就是把机器学习、人工智能应用在运维领域,简单来说就是:智能运维 = 机器学习 + 大数据。其中智能运维包含三大模块:服务台、自动化、监控。

据杜总解释,智能运维的架构依然是按照数据采集→数据存储→数据分析→数据展现的形式搭建。

ITOA 四种数据源的比较如下:

* 机器数据(日志):日志无所不在,但不同应用输出的日志内容的完整性、可用性不同。

* 通信数据(网络抓包):网络流量信息全面,但一些事件未必触发网络流量。

* 代理数据(嵌入代码):代码级精细监控,但侵入性,会带来安全、稳定、性能问题。

* 探针数据(模拟用户请求):端到端监控,但不是真实用户度量。

图片11.png

 

1506405280389867.png

 易维科技联合创始人任发科---《细数开发运维的坑》

1506405303783909.png

任发科在演讲中详细为我们介绍了运维的演讲过程及其运维工作中常遇到的“坑”,其中最常见的坑有以下几种:

坑一:DevOps由立场决定。Devops没有一个明确的概念说明,不同立场的人理解devops会不同。而真正在构建的时候,目标环境与测试环境一致,最大限度地消除他们的不一致成为了关键。要跳出本坑的关键就是:知问题,看疗效,以研发侧为始终。

坑二:同源。跳出本坑的关键是:不要用代码库做制品库!

坑三:一致性。跳坑指南:部署版本化、全流程版本化、需要引入并管理元数据、构建工具的版本要追踪等。

坑四:双部署。跳坑指南:同步部署、Docker与不可变部署、构建环境不一致仍存在、构建环境也Docker化。

坑五:Docker的效率。反馈越快,价值越高,Docker参与的效率如何?JENKINS承担了太多职责。

坑六:脚本驱动。跳坑指南:关键工作系统化,专属系统可以处理更细节的工作,将编程性工作变成配置性工作。

坑七:兼容性检查。跳坑指南:语义化版本+测试+构建系统。

坑八:只工作无数据。跳坑指南:基于开源的工具链体系需定制。

坑九:涉及角色多。跳坑指南:测试人员和测试工作的定位,运维人员和运维工作的定位,交出应用运维,专注本职。

坑十:全线不拉通。跳坑指南:传统运维关注在点,场景化运维、智能化运维全生命周期管理。

在演讲最后,任发科送给了现场听众一些做运维的经验总结:

研发侧目标是ADPaas,运维侧目标是智能自治系统,先利用开源,需要时自研,要一人多能!

1506405322119718.png

 

 

已报名会员 20 / 150
活动相关案例
暂无案例集
为了给大家营造舒适的学习环境,飞马会所有活动都仅收取邀请嘉宾和场地等成本费用,同时,活动将予以飞马网积分奖励!

注:为了活动的顺利进行,不能按时参会的会员,请提前3天联系我们退款或延期,以便工作人员安排场地及饮品,未及时联系的会员将不予以退款哦~ 同时,迟到的参会者将扣除50积分,请大家合理安排时间哟~
免费:¥0元
报名人数已满