«

KubeCon 2019 中国 - 参会主题分享

6.24-6.26 参加了 KubeCon 2019 中国大会,收获颇丰,摘选我参加过个人认为还不错的主题,分享如下。

1. 真实世界架构 - 构建全球跨云监控平台 - Dominic Green,Improbable;Yifan Zhao,Improbable

简介:Prometheus 支持我们轻松监控在 Kubernetes 集群内运行的应用和基础设施。只需几台服务器,配置和运行都轻而易举。开始扩展时,您可以采用新策略,例如联合和元监控,以确保获得所需的全部指标。但是当您扩展超越单个集群时会发生什么?当您扩展超越单个云提供商时又会发生什么?

在本次演讲中,您将了解 Improbable 如何能成功扩展指标平台,达到全球规模。Prometheus 是我们平台的坚实基础,Thanos 是一个 OSS 项目,可确保 Prometheus 抓取工具的全球查询和高可用性。通过添加 Envoy,我们可以解锁跨集群、跨云通信,支持我们的工程师全面监控我们遍布全球的平台。

625-真实世界架构 - 构建全球跨云监控平台 - Dominic Green,Improbable;Yifan Zhao,Improbable.pdf

2. 阿里巴巴使用高可用性+可扩展 Prometheus 和 Thanos - Guo'an Qin,阿里巴巴;Tao Li,阿里巴巴

简介:阿里巴巴集团正在使用 Kubernetes 来支持全球最大规模的电子商务业务。就可用性和可扩展性而言,如何提供可靠的细粒度监控和警报服务着实是一项挑战。

在本次演讲中,我们将分享基于开源项目 Prometheus 和 Thanos 开发具有高可用性和可扩展性的细粒度监控系统的经验。该系统主要支持阿里巴巴的集群管理系统,后者每秒会生成 400 万 TPS 和 1 万个请求。

我们将探讨以下主题。1)如何使用 Prometheus 支持大规模场景?2)如何使用 Thanos 实现低查询延迟,从而解决多个 Prometheus 实例导致的数据查询问题?3)我们从 Prometheus 和 Thanos 配置中汲取的经验教训,例如目标发现以及记录和警报规则管理。

625-阿里巴巴使用高可用性+可扩展 Prometheus 和 Thanos - Guo'an Qin,阿里巴巴;Tao Li,阿里巴巴.pdf

3. 无服务器:在 7 天内建立一个拥有 1 亿用户的微信迷你程序 - Tinafang 和 Masonlu,腾讯

简介: 微信提供了一个无处不在的移动应用平台,拥有超过 9 亿的月活跃用户数和 100 万注册开发人员,可支持构建从电子商务到游戏以及银行应用的所有内容。

我们将向您描述拥有 1 名工程师的客户如何使用腾讯云无服务器平台在 7 天内构建和部署 30 强微信迷你程序。目前,该程序的注册用户数已超过 1 亿,月活跃用户数达到 1200 万。

我们将详细介绍平台如何支持客户无需管理基础设施或运营即可构建可靠、安全的高性能应用,同时无需管理服务器、基础设施或运营即可将应用使用人数扩展到 1 亿的技术细节(容器编排、功能冷启动、应用性能和监控)。

625-Mason & Tina-Serverless云上最佳实践,两周开发出用户过亿的小程序v1.1 tina.pdf

4. 了解 Kubernetes Master 的可扩展性和性能 - Xingying Chen 和 Fansong Zeng,阿里巴巴

简介:目前,Kubernetes 的规模上限是 5k 节点,因此您可能无法用它来管理像 10k 节点这样的 web 级集群。

您是否想知道 Kubernetes 无法管理 5k 以上节点的性能瓶颈是什么?要想将其可扩展性提升至新水平,您应该先解决哪方面的问题?Etcd、apiserver 还是调度程序?

弄清这些问题是加速运行大型 kubernetes 集群的关键。在阿里巴巴,我们会遇到各种各样的问题,比如随着集群扩展,pod 创建变得极其缓慢。在本次演讲中,我们将分享我们是如何进行各种基准测试和性能分析的。我们又是如何对主设备进行调整/微调,并将主设备的性能提升 100 倍以上。目前,我们运行 10K 节点 kubernetes 集群同运行 2k 节点集群一样流畅。

625-了解 Kubernetes Master 的可扩展性和性能 - Xingying Chen 和 Fansong Zeng,阿里巴巴.pdf

5. 在 Web 级集群中动态调整 Pod 资源限制 - Cheng Wang 和 Xiaoyu Zhang,阿里巴巴

简介:您是否曾想过如何为 Pod 设置完美的资源限制?如何在资源效率与应用 SLO 之间取得平衡?

在本次演讲中,我们将分享阿里巴巴集团通过将不同 QoS 类别的 Pod 共置在同一节点上,在 Web 级集群中动态调整 Pod 资源限制(特别是在资源争用期间)的实践以及从中汲取的经验教训。

在生产集群中应用这一实践后,我们将集群资源使用率提高了 14%~30%,尾部延迟(95%)提高了 76%~87%,TPS(每秒事务处理数)提高了 107%~163%。

大家可以借鉴我们的经验,利用 Kubernetes 原生方法提高集群的资源利用率和应用性能。

625-在 Web 级集群中动态调整 Pod 资源限制 - Cheng Wang 和 Xiaoyu Zhang,阿里巴巴.pdf

6. 有效可靠地管理大规模 Kubernetes 集群 - 张勇和林志贤,蚂蚁金服

简介:随着业务的增长,我们需要将 Kubernetets 部署到世界各地的多个数据中心。单个数据中心中就拥有超过数万个节点。我们面临的关键挑战是如何高效、可靠地在数据中心内管理多个大规模 Kubernetes 集群。

在本次演讲中,我们将分享实现大规模集群管理自动化的经验和实践。首先,我们将介绍全自动化节点生命周期管理,以及如何基于 NPD、Autoscaler 和自定义运算符自动发现和恢复节点故障。然后,我们将分享部署和升级 Kubernetes 集群的经验和解决方案。最后,我们将分享基于 Prometheus 和运算符的风险防控系统,该系统可确保集群可靠性,具有自动故障检测和隔离的能力。

625-有效可靠地管理大规模 Kubernetes 集群 - 张勇和林志贤,蚂蚁金服.pdf

7. 电商巨头的原生云迁移经验 - 张磊 和Siyuy Wang,阿里巴巴

简介:将像阿里巴巴这样的全球电子商务巨头迁移到云原生平台绝非易事,这条道路漫长而又艰难,但却十分值得。

在本次演讲中,我们将从技术和社区的角度分享我们去年工作得出的经验教训,具体来说包括:

1.科技巨头向云原生技术迁移有哪些主要障碍?
2.像阿里巴巴这样的巨头的主要技术缺陷是什么?我们如何解决这些问题(部分)?我们的方法有效吗?
3.如果您的应用管理方式与组织中的 Kubernetes 完全不同,该怎么办?提示:CRD 和 控制器
4.为什么可预测性对电子商务至关重要?Kubernetes 是否具有开箱可用的可预测性?如果没有,为什么?如何解决这一问题(可能无解)?
5.如何验证数千个节点集群中的可扩展性问题?
6.规模庞大的团队能否与上游社区合作共赢?如何实现?

625-电商巨头的原生云迁移经验 - 张磊 和Siyuy Wang,阿里巴巴.pdf

8. Volcano: 在Kubernetes上运行AI/DL工作负载 - Da Ma, Huawei

简介:Kubernetes发展初期主要为服务类工作负载提供了通用流程框架。但随着它的普及,越来越多的用户希望在Kubernetes上运行AI / DL工作负载,如TensorFlow、PyTorch等。在Kubernetes上运行这些工作负载时,需要几个高级功能,如公平调度,队列管理、作业管理(暂停/恢复)、数据管理等。本次演讲将演示如何使用Volcano为Kubernetes带来“Batch”能力。

625-Volcano-在Kubernetes上运行AI-DL工作负载 - Da Ma, Huawei.pdf

9. AIOps:利用 Prometheus 和 Istio 进行异常检测 - Marcel Hild,红帽

简介:随着 IT 运营变得更灵活、更复杂,提高运营效率和情报能力的需求也在不断增长。利用 Prometheus 监控应用程序和 kubernetes 集群已经相当普遍。不过,为您的组织确定相关指标和阈值却越来越难。

在本演讲中,Marcel 将展示用于长期收集和存储 Prometheus 采集的指标的工具。然后他会分析大量这些指标,以获取趋势和周期性信息,并预测给定指标的预期值。最后,他会将预测指标集成回监控和警示堆栈的 Prometheus,以启用动态阈值化和异常检测。

所有操作仅用开源工具完成,可利用 Istio 中的可用工具充分运行演示。

626-AIOps-利用 Prometheus 和 Istio 进行异常检测-Marcel Hild-红帽.pdf

10. Kubernetes Multicluster SIG - Shashidhara T D,华为和 Xun Pan,IBM

简介:SIG-Multicluster 致力于解决与跨许多云提供商(所谓的混合云)和在众多混合集群中部署的应用管理许多 Kubernetes 集群相关的常见挑战。我们主要负责设计、探讨、实施并维护与多集群管理和应用管理相关的 API、工具及文档。这不仅包括集群联合等有效的自动化方法,而且还包含采用批量工作流式持续部署系统(例如 Spinnaker 等)的方法。其中涉及这些系统及其他类似系统的独立构建模块(例如集群注册表),以及在适当情况下建议的 Kubernetes 核心更改。

在简介中,我们将向您概述我们目前正在积极研究的项目、参与其中的最佳方式及我们的未来计划内容。

然后,我们将进行更深入的分析!最近,我们发布了我们最大项目的第二版 - Federation v2 即测试版,并收集了关于几家不同公司如何及为何使用该解决方案来解决其特定多集群用例的用户反馈意见。在这次探究会议中,我们将向您介绍此测试版本中的内容,以及我们对其实际使用情况的调查结果。

626-Kubernetes Multicluster SIG - Shashidhara T D,华为和 Xun Pan,IBM.pdf

参考资料:

分享