导读: 在云原生时代,AIOPS 和可观测平台已经逐步成为企业关注的重点,本文将探讨如何通过全链路可观测数据融合、数据应用工具,大数据和AI技术,同时结合各类开源组件和框架,以及上下游生态的对接,帮助我们建设一个可观测和智能运维的平台。
今天的介绍会围绕下面的内容展开:
业务数字化带来的趋势
当前的 IT 运维方案,面临的挑战
SLS 云原生可观测平台
分享嘉宾|孟威 阿里云 智能产品专家
编辑整理|天天 golden tech
出品社区|DataFun
01
业务数字化带来的趋势
随着近几年云计算、云原生的出现,我们发现标准化部署、上线的周期被大大缩短。但数字化技术的出现,却对背后研发、运维和运维的工程师们提出了更高的要求。从运维平台的建设来看,数字化的趋势也将带来非常多的改变,具体如下:
1. 体验是关键竞争力
为用户带来极致的用户体验是非常关键的竞争力,根据相关报告显示,大概每 1 秒的延迟,会带来将近 7% 的用户流失。
2. 创新在加速
同时数字化也正在各个行业推动业务的创新,发布的节奏也越来越快,研发、SRE 等各种迭代都非常快,据统计 55% 的应用每周或者每天都会发布更新。
3. 基础设施和架构在革新
当今基础设施和架构也在不断更新,从传统IT架构不断向基于容器编排的新基础设施——云原生过度。
4. 运维数据的多样化
在这个阶段,运维数据包括业务数据的规模和多样性也在不断的提升和发展,与此同时,IT 系统从单体架构逐步向分布式、微服务、云原生去转变。
--
02
当前的 IT 运维方案,面临的挑战
随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式,是衡量企业系统数字化程度的重要标志。 传统的 IT 运维方案 也会面临非常大的 挑战 ,如下图所示:
1. 数据孤岛
不同的数据例如:日志数据、监控数据、Trace 数据以及各种各样的审计数据,这些数据对接不同的 API 和存储系统,可能会产生各种各样的数据孤岛,无法去做统一的关联分析。
2. 运维工具碎片化
通过行业报告可以发现,企业中搭建一套运维平台,通常需要十几种甚至几十种运维工具,在工作中需要在不同的工具中进行切换。
3. 告警事件过载
同时告警的事件也会发生过载的情况,设想一下,如果短时间内收到成千上万的告警事件,这样就会导致重要的信息被淹没。
4. 缺乏预防手段
最后也是一个用户体验的问题,即如何能够快速地发现和预防问题,这是非常关键和亟待解决的。
基于以上这些挑战,我们需要新一代的智能运维解决方案,它需要满足以下的特点:
5. 数据联合
首先数据需要做关联、融合、打通,例如:基于 Log、Metric、Trace等数据做全链路的可观测分析。
6. 更易于使用
其次需要一站式、简单易用的平台,不需要维护多套系统,并且有开放的生态和技术方案去联合。
7. 降低噪声
另外新一代的智能运维解决方案可以支持告警事件的管理,降低噪声,提升效率。
8. 减少故障时间
最后希望通过自动检测异常来防患于未然,发现隐患。
基于上述背景和挑战,接下来展开讲解基于 SLS 云原生的可观测平台。
--
03
SLS 云原生可观测平台
首先介绍一下 SLS,日志服务 Simple Log Service 是服务于阿里云客户以及阿里云集团内部自用的云原生观测与分析,一站式可观测数据的 Data to Insight 平台,为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升研发、运维、运营、安全等场景的数字化能力。
从上面架构图中可以看到,SLS 既可以支持数据的采集、加工、存储、分析的需要,又可以在底层把 Logs,Metrics,Traces,Trails,Events 等各种各样的事件去做统一的关联分析,SLS 可观测数据平台,支持查询检索、SQL 统计分析、PromQL、AI 算子等能力,提供高性能、智能的关联查询分析,同时在应用和日志排查过程中,可以满足日志分析和问题排查以及业务日志运营分析等需求,在此基础之上可以进一步构建一些运维监控、统一告警等智能运维场景。总之,SLS 提供了一站式、可观测、统一的存储底座,打破了数据孤岛,支持融合分析和统一汇总,并且支持冷热数据分层,提供全链路,端到端的全局化视图能力。
以上介绍了 SLS 云原生可观测平台的全景,接下来看下如何管理一套复杂的 IT 系统。
前面提到当今数字化业务迭代越来越快,同时技术架构也在变革。比如,多云架构、微服务等带来架构、迭代的灵活性,但是组件也越来越多。那我们怎么去管理一个这么复杂的 IT 系统呢?我们需要考虑,如何避免让整个数据平台变成一个个独立的烟囱与孤岛。
在面临复杂的 IT 系统时,需要解决下面 3 个问题:
① 工具碎片化
构建可观测数据的分析系统中,我们会遇到工具太碎片化的问题。比如,不同的监控指标、日志数据的采集、存储,需要不同的工具,整个方案的复杂性也很高。
② 接入与分析过程面临扩展、性能、不统一的问题
这些数据不同流程的链接、可扩展能力、分析性能上如何提升,具备秒级大规模、实时的能力。
③ 判断与处理分析机器学习能力的应用
面对系统需要监控的对象、分析的数据越来越多的情况下,我们怎么利用一些算法,降低复杂度、减少噪声,解决人工规则无法覆盖的问题,减少整个分析的过程。
SLS 可观测数据平台的设计,其中很重要一点,就是提供统一的“可观测存储”,来解决上面提到的复杂 IT 系统的 3 个问题,如上图所示,统一的关联分析指的是支持不同类型的可观测数据(Log/Metric/Trace 等)统一存储在 SLS 平台中,也就意味着可以兼容可观测数据相关的开源生态,客户不再需要针对不同的可观测数据,去建设不同的存储系统,使用不同的方式去查询分析,在这个过程中 SLS 支持三方开放的告警Alert信息的接入,例如阿里云云监控的数据,以及各种 Trail 数据的接入。
综上,SLS 支持可观测数据全面的接入,统一的存储,关联的分析,来支撑客户基于 SLS 平台构建可观测数据统一存储的分析平台,提供全栈视图来打通可观测数据的关联分析,提升问题的排查效率,从而提升客户体验。
下面要探讨的一个问题就是很多用户提出的,需要解决不同系统产生的告警事件的统一管理与处理问题,SLS 也发布了一站式的智能告警中心。它是开放的告警中枢,不只是对接 SLS 中各类数据产生的告警,也可以对接阿里云上其他系统触发的告警以及客户已有系统的告警(比如 Zabbix 告警事件等),如下图所示:
从上图可以看出,SLS 的告警中心可以提供如下的能力:
① 全局监控
支持多告警源的全局监控。
② 告警降噪
支持包括去重、抑制、合并等提升处理效率。
③ 支持动态分配
支持多条件、升级、分派,并结合排班表等,完成告警的动态分布。
因此 SLS 的智能告警和响应中枢是一个企业 IT 系统的神经中枢,可以帮助企业去减少噪声,更快速有效的响应,成为一个生产力的工具。
告警的问题解决之后,接下来分享一下自适应的机器学习异常检测,通过智能异常检测,发现隐患,避免演变成严重事故。如下图所示:
我们基于机器学习,提供 AIOps 能力,支撑客户构建智能运维系统。SLS智能巡检,对于 Metric、Log 等数据都可以进行智能巡检发现隐患,解决人工设置阈值无法覆盖的问题,例如在人工设置过程中,规则也会遇到各种挑战,监控的对象也会非常复杂,人工设置的阈值会出现过多的误报和漏报。同时,智能巡检支持反馈优化,通过客户对于巡检结果的点击与处理反馈,模型会自动适配客户的数据与场景,因此 SLS 提出的智能巡检和自适应算法,可以支持不同业务的特点和模型,来提供反馈优化的能力,系统可以根据运维开发来反复检测异常反馈来迭代优化算法,有效帮助客户防患于未然。
接下来介绍一个非常重要的方面:日志审计,日志审计服务是阿里云日志服务 SLS 平台下的一款应用,如下图所示:
日志审计是法律刚性需求,是客户安全合规依赖的基础,是安全防护的重要一环。它在继承了日志服务 SLS 的全部功能以外,还有强大的多账号管理及跨地域采集功能,支持通过资源目录 (Resource Directory) 的方式有组织性地统一管理和记录多账号下云产品实例的日志信息,可以便于用户进行统一分析,问题排查,回溯复盘等工作。
日志审计整体架构主要具备以下基本功能:
日志的自动化管理,脱离手工维护
丰富的云产品日志类型生态
此外,日志审计还具备以下功能特性和优势:
实例的自动发现和日志的自动采集,打开云产品日志采集开关后,后续如果新增云产品实例,只要满足采集条件(如用户自定义采集策略限制)日志审计将会自动地将云产品实例对应的日志采集进来,无需用户手动操作。
跨区域中心化能力,日志审计可选日志 Region 化存储,支持通过自动创建数据加工将日志存储到同一中心区域,在该中心 Project 下进行统一查询分析,报表展示、告警配置等。
日志审计支持跨账号采集云产品日志,对于多账号用户来说,可以将不同账号下的日志采集到同一中心账号下,其他账号作为该中心账号的成员账号,实现跨账号的日志汇总和管理。
日志审计还支持丰富的内置报表、内置告警规则、威胁情报等功能。
日志审计还支持通过 Terraform 的方式进行采集编排和管理。
因此日志审计是一个非常重要的,能够去满足操作可记录,可回溯,可审计的一个统一审计的方案。
最后再来总结一下 SLS 这个云原生可观测数据平台。
SLS 可以提供 Log/Metric/Trace 统一存储与分析,更便于二次集成的分析能力与生态;为用户提供运维管理平台工具和开箱即用的应用。做厚中台能力基础上,完善可观测性布局,为用户提供即开即用的场景化能力。SLS 整体架构可以理解为从以下 4 个方面来提供云原生可观测平台的能力:
多维的数据采集与管道,强大的数据采集与分发基础能力,提供一站式采集、清洗、入湖能力,采集端支持更多数据源,消费投递升级,支持更多目标源。
统一的可观测数据平台存储,在做深可观测数据处理与分析的底座能力之外,提供更多数据源、存储分层(包括热存、智能冷存)、支撑更多场景的计算能力。
智能运化的 Ops 平台工具,构建 AIOps 智能巡检及告警中心的运维横向能力,支撑各场景化应用。
提供很多 Ops 领域场景化能力,来发挥可观测数据融合优势,对于客户业务应用,包括 DevOps,Monitor以及用户体验分析和安全等,提供了场景 Insight,包括 ITOps 开发运维应用、SecOps 安全运维应用与 FinOps 成本分析应用。基于以上架构,我们将不断探索生态,去构建一些应用生态、定开交付生态,服务开源生态与伙伴等。总体来说 SLS 云原生可观测数据平台,可以帮助企业运维平台从一个成本中心转变为创新生产力的工具。
面对业务数字化,传统的 IT 运维方案存在多种挑战,需要能打通可观测数据,快速根因诊断与问题定位,方便易用的新一代运维方案。日志服务 SLS,可提供一站式日志数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升研发、运维、运营、安全等场景的数字化能力。
今天的分享就到这里,谢谢大家。
|分享嘉宾|
孟威|阿里云 智能产品专家
浙江大学硕士研究生,就职于阿里云基础产品事业部,负责阿里云日志服务 SLS 的产品管理
|DataFun新媒体矩阵|
|关于DataFun|
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。