前言
9月25日晚受邀来到阿里云飞天园区参加阿里云MVP产品夜谈,在会上遇到了容器服务团队的负责人易立,并就容器服务进行了交流。此次参加夜谈的除了来自全球各地的阿里云MVP,还有来自安全团队、容器团队、AIoT 团队、大数据团队、数据库团队、人工智能团队、中间件团队、搜索引擎&智能推荐团队的负责人&产品经理。各个参会的MVP可以根据自己的研究方向或者感兴趣的方向选择,直接与团队负责人面对面交流,获取阿里云产品的最新信息,并提出使用意见,促进产品的发展。由于主要从事云原生&容器方面的工作,我选择了容器团队,与阿里云容器服务团队负责人易立就容器服务进行交流,本文记录了部分交流内容。
容器服务交流
关于集群版本&集群升级
众所周知,Kubernetes 以非常稳定的3个月发布一个版本速度在高速迭代这,Kubernetes v1.16.0 也即将 release ,但是目前 ACK 的 Kubernetes 版本依旧为 v1.12.6-aliyun.1 已落后官方4个大版本。得到的回复是新版本 1.14 已经上线,下周就可以升级了,1.14 版本之前已经上线,只不过一直在灰度测试,下周(2019年9月29日)就全面放开升级了。截止写这篇文章的时候,我们的多个 Kubernetes 集群已成功升级到 v1.14.6-aliyun.1 ,虽然在升级的时候出现了一点小问题,但是最后还是顺利解决了。
然后就是集群升级的问题,集群升级的时候会建议对所有节点打快照,确保节点安全,但是如果在节点升级当中失败,就会出现一半为新版本节点,一半为旧版本节点的问题。我们的一个节点升级失败,就出现了上述问题,最后还是将该节点容器驱散,并将该节点移出集群才解决了升级问题。希望集群升级提供整体状态保存&回退功能,确保如果升级失败(或者出现新旧版本不兼容问题)的时候可以安全回退到之前版本。
关于容器服务前端展示
ACK 的 WEB 界面相对简陋,一直以来都是对 Kubernetes Dashboard 进行了简单的包装,和其他公有云相比确实不如。不过这也不是容器服务独有的问题,阿里云你产品众多,大部分都有这样的问题。与易立交流得知,容器服务团队目前主要的任务还是确保 Kubernetes 集群的安全稳定运行,他们在安全和可用性上花费的大量精力,貌似并没有拿到什么前端开发资源。我注意到像费用中心、日志服务等产品都有了新版页面,这里希望能容器服务页面也能尽快改版,提高页面操作的便捷和美观。
关于授权管理
一直以来容器服务都有授权管理功能,后来都基于RAM重新做了授权管理功能。但是RAM权限管理策略十分复杂,配置起来也很麻烦,不同的策略结构和语法学习起来非常困难。在配置和管理起来非常困难,我们只能把所有权限收回,每项权限都要根据需求提工单来进行配置,还时长会出现配置不生效的问题。而且这个问题一提出,就引起了大家的共鸣,后了解得知,为了安全合规的要求,操作便捷和安全合规没法兼顾。这里希望授权管理上能在确保合规的同时,能提升RAM操作的便捷性。
后记
关于容器服务的交流主要是以上几点,其他的还包括监控、存储和 CI/CD 方面进行了交流,同时也获得了不少建议。当面给阿里云提需求的机会并不多,我也是抓住机会,把日常使用 ACK 的问题汇总之后一股脑的丢了出去。有类似需求的同学可以在阿里云的聆听平台上给阿里云提交建议,以我的经验,合理的需求会很快审核通过并排期开发,换句话说就是“人人都可以是阿里云的产品经理”。