双喜临门:「DaoCloud 道客」 荣获 2023 可信云两项最佳实践
为进一步促进云计算创新发展,建立云计算信任体系,提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会联合主办的第十届可信云大会于 2023 年 7 月 25 - 26 日在北京国际会议中心举行,大会重磅发布了最新一批可信云评估结果及最佳实践案例。本次 “可信云最佳实践案例” 共设置六大类别,为云原生界的发展范式提选,共历时 2 个月,「DaoCloud 道客」的网络运维巡检方案和中间件方案在众多方案中脱颖而出,获得云原生容器类和云原生虚拟化云平台类的最佳实践。
两个方案都是在纷繁复杂的需求场景下,应对实际应用场景的查漏补缺而产生的创新方案,不仅更贴合实际生产环境的实际需求,也进一步为云计算行业的标准化体系建设落地提供有力支撑和参考。
「DaoCloud 道客」研发副总裁-潘远航;云原生网络团队负责人、云原生研究院院长-蓝维洲,出席会议并领奖。
此外,DaoCloud 研发副总裁潘远航,参与可信云“平台工程与 SRE 分论坛”,并发表演讲《平台工程助力研发效能提升的实践》。他指出,作为 Gartner 2023 年重要战略技术趋势,“平台工程”旨在为企业的开发团队提供一个自助开发平台和最佳实践,助力效率的提升、业务的专注、标准的统一。基于我们生产落地的实践,分享我们如何配合客户的平台团队,规划和实现平台工程定义的平台能力。
01
最佳实践
网络运维巡检方案
目前巡检通常有两类方式,一是被动式巡检,通过采集应用的信息来确认集群的状态但是缺少时效性。二是主动式巡检,采用手动方式给集群注入压力,观测集群的情况,但是因为规模大、巡检频率高或流程复杂等原因,实施困难。这两种巡检方式,在部分巡检场景下并不能满足巡检目的。
「DaoCloud 道客」推出的运维巡检方案是调研了运维人员的常规巡检需求而产生的,源于其开源项目 Kdoctor 。Kdoctor 是一款基于主动式压力注入的巡检项目,让网络、存储、应用等巡检任务实现了自动化,基于 CRD 的设计,能够对接观测性组件,让巡检功能的实施高度产品化,能完成集群网络联通性巡检、coredns 服务巡检、基础网络健康巡检、http 服务巡检、本地磁盘巡检等任务。Kdoctor 的定位不是取代传统专业的测试工具,而是希望提供一个简单、快速、高效的云原生化巡检工具,来帮助传统的测试工具完善缺少的功能。Kdoctor 的主要创新特点:
(1)探针式的巡检原理:不依赖第三方应用的部署和输出,主动向集群注入压力,采集响应,同时对发压端的开销内存用量做了优化,确保长时间压测情况下不会出现 Pod 的 OOM,提高了巡检的可实施性。
(2)高覆盖度:能够覆盖测试到集群中的众多组件和基础设施。
(3)缩短巡检时间:高度适用于大规模集群的部署和日常运维、故障问题的范围排查,一定程度上减轻了运维工作量。
(4)巡检结论准确性高:对运维工作进行了标准化的实现,以最佳实践的发压参数和配置实现了巡检,降低了测试人员的技能门槛。
(5)低成本:能够降低测试环境的准备成本。
(6)支持多种巡检报告输出形式:支持CR status、aggregation API、PVC、本地磁盘、metric等多种方式,可对接后端观测性组件,绘制集群的相关状态拓扑图,满足多维度产品需求。
在技术层面上,Kdoctor 主要由如下组件构成:
(1)Kdcotor controller,主要的工作是实施巡检任务的管理。当管理员下发具体的巡检任务 CR 时,Kdcotor controller 就会动态启动一组相应的 task agent pod 来实施。
(2)Kdcotor agent,它以 daemonset 或 deployment 存在,是巡检任务的具体实施者,按需运行在集群中的每一个角落,实施巡检任务,当 task agent pod 完成巡检任务后,会把巡检结果更新到巡检任务 CR status 中,也会把具体的巡检报告汇聚发送到 Kdcotor controller。
Source:DaoCloud
适用场景:
(1)部署大规模集群后,实施一次性的巡检任务,确认集群的网络和磁盘正常,应用部署的资源和副本数量正确,满足期待的性能。
(2)集群日常运维中,实施周期性的巡检任务,完成实时监控,第一时间发现问题。
(3)集群出现故障后,可实施问题覆盖范围的排查。
(4)辅助各种云原生项目在 CICD 环节中的 E2E 测试。
(5)相关组件出现问题后,可用于实施流量压力注入,配合 Bug 复现排查。
(6)测试第三方应用的灰度发布、升级等场景下的业务连续性。
运维人员在集群部署、日常监控、问题范围排查、问题复现等场景下,缺少专业的、自动化的、云原生的巡检工具,这给运维人员的工作增加了额外的负担,Kdoctor 的使用不仅可以降低运维人员巡检过程中的时间和人力成本,同时提升了各项目组的运维效率。
02
最佳实践
中间件方案
该方案是基于中间件能力提供的服务方案,在其中,中间件服务提供了一个强大的工具集,用于管理和监控应用程序,可提高应用程序的可靠性和稳定性,减少人工干预和人为错误,主要有以下功能:1、可以自动化应用程序的管理任务,例如配置和部署等。2、提供了丰富的监控和报告功能,能够轻松地跟踪应用程序的性能和健康状况,提高应用程序的可用性和响应能力。3、提供了强大的自动扩展功能,能够根据应用程序的需求自动增加或减少资源,从而提高应用程序的效率和可扩展性。该方案的创新性在于容器化的使用,可以无需关心底层操作系统、网络和存储等细节,保障数据库的资源独立性和安全性,通过结合云原生技术也可以拥有 Kubernetes 所带来的自动伸缩、简化部署、部署灵活、高可用性、自动化运维等能力,实现了 Kafka-operator 从 java 到 Go 的语言转变,利用 Go 语言一样能对 Kafka 的实例进行管控,该中间件服务也可以支持多种中间件从而提高资源利用率。该方案的技术能力特点:1.统一架构:整体模块支持多种中间件,通过统一的框架完成不同中间件管理,在扩展和维护方面表现更加优秀。2.灵活拓展:通过预留配置接口,可以更方便地实现应用迁移,在升级和环境变更时给运维团队带来更多便利。3.高可用性:通过结合云原生技术,相较于传统中间件模式可以做到极大的高可用,通过自动故障检测使中间件节点按需迁移到性能更高,稳定性更好的计算及存储节点等基础设施中,对于中间件连续可用性及稳定性都有了质的飞跃。4.高稳定性:通过结合 Kubernetes Operator 技术,可以动态管理高可用中间件的整体状态,极大地减少了用户使用中间件过程中需要定期关注监控告警并手动维护的工作量。5.多云能力:通过结合 DaoCloud Enterprise 5.0 整体产品的跨集群打通能力,可以使中间件具备主从按集群分离部署的能力,有效减少了在极端情况下整个集群不可用时业务应用使用中间件异常的风险,为企业业务应用多中心多活等场景提供了底层保障。适用场景:1. 当用户需要快速创建和管理中间件时,该方案提供了完善的产品功能和交互界面,用户可以通过界面快速方便地创建和管理中间件实例,比起传统模式通过命令行或脚本操作极大地提高用户体验。2. 通过 Operator 机制保证中间件实例在遇到问题时的快速自愈能力,让运维人员无需长时间关注监控和告警来手动管理中间件各节点。
03
总结
此次两个方案获得中国信息通信研究院、中国通信标准化协会等专业机构的一致认可,是激励「DaoCloud道客」不断前进的动力,我们会不断地在业务实际使用场景中升级、迭代并创新出更完善的解决方案,帮助每一个使用DaoCloud Enterprise 5.0 产品的客户获得更好的体验,助力企业数字化转型的成功落地。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。