畅聊云时代的可观测性实践
我认为,在未来 3 年内,这三个类别——APM、监测/指标、日志,可能还有其他类别——都可能不复存在。将只存在一个类别:可观测性。并且它将包含您需要了解的,系统可以进入任何状态所需的所有见解。
——Charity Majors, CEO Honeycomb
近日,由中国信通院发布的《中国数字经济发展报告(2022年)》数据显示,中国数字经济发展始终呈现稳中向好的发展态势,产业规模持续快速增长,已数年稳居世界第二。在 2021 年,中国数字经济规模已超 45 万亿元,占国内生产总值 39.8%,在国民经济中的地位更加稳固、支撑作用更加明显。
在产业数字化转型提速升级过程中,基于云计算的技术创新与产品应用起到了重要作用,从底层的基础设施框架,到上层的业务流程定义,都在持续进化并已颠覆很多传统思维与模式。今年,又诞生许多新热点技术和方法,「可观测性」(Observability)成为其中佼佼者之一。
日趋成熟的可观测性工具,配合已实践多年的「系统可靠性工程」(SRE),打破了对原有开发运维体系的认知瓶颈。系统本身是否具备可观测性,和是否有合适的可观测方案守护,已成为能否保障系统稳定性的最关键前提。运维不再限制于僵化的变更流程,开发可以随时享受可编程基础设施带来的便利,测试和安全加固贯穿整个开发运维过程,系统所有的实时运行状态都尽在掌控,潜在的风险可被提前预测,用数字化的手段,才是管理数字系统的最佳方案。
大型企业或可凭借自身强大的技术实力与持续性的产研投入,自建一套全链路可观测平台,但即便如此,随着应用不断迭代,或技术栈版本快速更新,仍要面对频繁调整监测参数的巨大工作量;若中小企业或初创团队,仅建设这样一套全链路可观测平台,就已大大超出其技术和运维能力承受范围。
8 月 27 日,观测云首席布道师——吴亚昆作为「DataFunSummit2022:数据治理在线峰会」的「数据可观测性」主题论坛出品人,特别邀请到了观测云、睿象云、货拉拉、中国 SRE 联盟、阿里云、同创永益等业内知名企业和团队的技术专家,在线分享讨论具备代表性的超大平台可观测性解决方案与行业实践,以及如何让初创企业也能开启全面可观测能力的落地场景。
观测云与合作伙伴的应用实践探索
1、睿象云:告警,为可观测性平台分析提供可靠「现象」
睿象云技术总监王金良从可观测性的整体形态出发,围绕告警在可观测系统的核心功能、价值和最佳实践展开,发表《可观测系统中的告警管理实践》主题分享。
王金良表示,可观测性并不是在取代监控,它更像是描述一种属性的范畴,是一种能力的体现形式,越复杂的系统越需要这种属性或能力。
告警作为 IT 运维信号总量的金字塔尖,对于可观测性接下来的流转及判断起着至关重要作用。而统一的、准确的、智能化的告警平台的诞生,为可观测性平台的分析,提供了更为可靠的「现象」,可帮助运维人员接下来分析原因引导方向。
2、观测云:数据治理视角下的可观测性
观测云高级技术专家张田发表《数据治理视角下的可观测性》主题分享,并以数据资产管理场景为例,深入浅出地阐述可观测性对系统稳定运行的重要性。
张田表示,「可观测性」表示收集一个系统的所有指标、日志以及链路追踪数据,并通过一定的治理手段使这些数据有机结合,以合适的方式呈现出来,最终帮助用户更好地来理解和解释系统当前所处的状态。
以数据资产管理场景为例,治理后资产用什么方式对上层应用提供服务,这些对外服务如何管控,谁使用了数据,用了多少数据,使用体验如何,都是对治理效果的一次定量化衡量。这个衡量过程的核心就是系统的可观测性。观测云目前的统一可观测能力已经非常成熟,实现这个能力的基础就是数据关联,做到统一数据展示、数据查询、数据分析与数据报表展示。
3、货拉拉:依托强大的技术团队,实现全链路可视化监控
在本期主题论坛现场,货拉拉架构师曹伟带来《货拉拉全链路监控的落地与实践》精彩主题分享。
曹伟介绍道,货拉拉成立于 2013 年,是互联网货运物流市场中的头部品牌,随着货拉拉的业务规模不断壮大,原来的系统架构已无法满足业务需求,因此自 2020 年起,货拉拉便着手对业务系统监控全面改革。
依托强大的技术团队和深厚的技术积累,历经两年重重测试与不断调整,货拉拉串联 Metric、Trace、Log 和业务,实现全链路可视化监控闭环,完成「所见即所得」的监控可视化建设。
曹伟现场表示,货拉拉自研的可观测系统得益于公司多年深厚的技术积累和研发恒心,目前货拉拉监控 3.x 已实现快速定位、全局稳定性、微服务治理、高 ROI 等效果,未来将对自研存储、根因分析、指标告警联动、服务拓扑、回馈开源社区等方面持续投入。
4、中国 SRE 联盟:首席布道师刘峰,SRE 的核心理念与可观测性
在本次「数据可观测性」主题论坛直播间,中国 SRE 联盟首席布道师刘峰为观看直播的观众带来《SRE 的核心理念与可观测性》精彩主题演讲。
刘峰表示,分布式、复杂的服务以不可预测的用户和可变吞吐量大规模运行,这意味着有数百万种不同的方法出错,但却不能预测它们,将服务的所有输出外部化,使我们能够推断该服务的内部状态,即服务的可观测性是建设云时代 IT 系统时的刚需。伴随 DevOps、SRE 的全面到来和技术栈持续升级迭代,可观测性与 SRE 工程、开发和运维、应用与系统环境、软件工程与系统工程等之间逐渐形成引入和推动的「奇点」效应:同根同源,共生共进;无中生有,有中生新。
SRE 工程、可观测性技术与应用实践的最终目的,都是通过新兴科学技术构建稳定的系统,用可靠的服务提升企业交付价值,助力数字化业务增长。
5、SLS:云原生可观测平台,助力业务数字化创新
随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式,是衡量企业系统数字化程度的重要标志。
来自阿里云的智能产品专家孟威表示,面对业务数字化,传统的 IT 运维方案存在多种挑战,需要能打通可观测数据,快速根因诊断与问题定位,方便易用的新一代运维方案。日志服务 SLS,可提供一站式日志数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升研发、运维、运营、安全等场景的数字化能力。
6、同创永益:数字韧性,数字化业务连续性下一站
同创永益郑阳作为最后一位嘉宾出场,带来《数字韧性:数字化业务连续性下一站》主题分享。
郑阳表示,企业上云在为业务增长带来提升的同时,也带来了新的风险与挑战。伴随业务云化程度加深,最大的挑战就是系统链路的复杂性,一个小的变更就有可能触发大面积的系统混乱、故障和服务中断。
混沌工程的出现,让人们对复杂分布式系统在生产环境中抵御突发事件的能力有了信心。利用混沌工程可验证、保障系统稳定性,比如在 Kubernetes 平台上快速验证其高可用性、弹性、可观测性。
纵观全国上下各企业的可观测性建设,目前普遍处于探索阶段,但站在中国可观测性的起点,从技术范式颠覆的视角来看,系统的可观测性将成为企业数字化转型的典型特征。
中国的可观测性始于观测云
作为中国可观测性领域的领头羊,观测云自今年 4 月正式发布以来,已荣获中国信通院颁发的「可观测性平台技术能力」最高级别「先进级」认证、可信云企业级 SaaS 服务认证等多项国家级奖项,入选 CNCF 云原生全景图的 Observability and Analysis 板块,全面兼容 OpenTelemetry,数据接口全部开放。此外还提供强大的自定义编程功能,可接入物联网、云平台账单等各种跨平台数据源。
除提供开源组件外,观测云还支持 SaaS 版按量计费模式,以及全功能的,可以本地部署的「社区版」供广大技术爱好者免费试用体验,极大降低了可观测能力平台的建设门槛,让初创团队甚至个人,都可以快速体验到最先进和完整的可观测能力。
聪明的团队会观测,一个成熟的技术团队就应该掌握通过数据视角去分析问题,统一地建立整个系统可观测性是 DevOps 和 SRE 能够落地的充分必要条件。
观测云始终坚持以数据为核心、价值为驱动,秉承开放创新发展的理念,持续增强技术与产品研发投入,提供优质的可观测性产品体验,助力企业、技术团队及个人系统的可观测性系统建设,为企业数字化转型提供最大化的价值,并携手各方生态合作伙伴,共同为中国可观测性的发展贡献力量。