1、面向不同用户场景下的公有云资源交付弹性调度体系阿里云智能-弹性计算田政雄田政雄毕业后加入华为中央软件部,2012 年加入阿里云弹性计算,10+年管控调度研发经验参与了阿里云飞天操作系统的研发,主导了弹性计算、存储、网络等多个管控模块的架构升级从 0 到 1 打造了弹性计算资源中台,致力于为用户建设按时按需高性价比的资源交付弹性调度体系,服务于阿里云数百万用户关于我目录 1.弹性调度的挑战 1)弹性调度规模 2)高弹性成功率诉求 3)高弹性效率诉求 4)高性价比诉求 2.弹性调度的技术内幕 3.资源交付弹性调度最佳实践 4.总结弹性调度规模可区*规格*售卖形态6 大洲20+数据中心60+可用区G
2、N6v GPU计算型F1 FPGA 计算型GN5 GPU计算型GA1 GPU可视化型中小型数据库数据处理任务企业后台应用Web服务器;批量计算,分布式分析,高性能科学和工程类应用和平台;广告,游戏高性能数据库数据挖掘和分析Redis,Memcached内存型数据库关系型数据库;NoSQL数仓;内存型数据库Hadoop/Spark集群(实时)MapReduce分布式计算如Hadoop、Spark等;分布式文件系统;日志和数据处理基因组学研究;视频编解码、图像转码;金融分析深度学习;视频处理;图形可视化;科学计算高性能科学计算高性能前端机GN6i GPU计算型F3 FPGA 计算型EBM 弹性裸金
3、属(神龙)高性能数据库;高性能网站前端机;数据处理任务;企业后台应用;高性能计算、科学计算SCC 超级计算集群X86计计算算异异构构计计算算裸裸金金属属&高高性性能能计计算算E-HPC 弹性高性能计算G6 通通用用型型SN2NE 通通用用网网络络增增强强C6 计计算算型型SN1NE 计计算算网网络络增增强强R6 内内存存型型SE1NE 内内存存网网络络增增强强R5 内内存存型型RE4 内内存存增增强强HFC6 高主频计算型HFG6 高主频通用型D1NE大数据型I2 本地SSD型I1 本地SSD型D2大数据型G5 通通用用型型C5 计计算算型型D1大数据型HFR6 高主频内存型400+产品规格(
4、一云多芯)节节省省计计划划按按量量包包年年包包月月预预留留实实例例容容量量预预留留弹弹性性保保障障专专有有宿宿主主机机DDH抢抢占占式式实实例例SPOT10+售卖形态弹性业务持续波动性弹性成功率诉求某用户持续波动,峰值是正常时的两倍某用户持续增长,半年增长了数十倍弹性业务突发性弹性效率诉求某用户的活动事件突发,1小时之内增长20倍某用户的每天创建释放量突发弹性业务低成本诉求性价诉求时间业务负载业业务务脉脉冲冲A A临临时时发发生生业业务务脉脉冲冲B B有有明明确确规规划划如何结合自己的业务特征来购买达到最优流量波动无状态用户如何降低成本周期性(比如晚高峰)用户如何降成本目录1.弹性调度的挑战2
5、.弹性调度的技术内幕 1)弹性供应:机位规划、服务器动态调配 2)资源调度:抢占式实例分时复用、性能 Bursting、画像调度、异常调度和隔离 3)智能售卖:事前购买推荐、容量规划、资源预定;事中多购买形态组合;事后候补生产 4)弹性编排:预测式伸缩能力、预规划调度3.资源交付弹性调度最佳实践4.总结弹性的维度时间(24*7)空间(Region、AZ)规格(大小、能力)数量(资源维度)弹性调度整体架构弹弹性性供供应应机位规划提货采购搬迁调配智智能能售售卖卖资源规划资源推荐RI、SP、SPOT等多购买形态推荐候补生产资源池化资资源源调调度度性能突发调度画像调度分时复用弹弹性性编编排排弹性升降配
6、(垂直弹性)弹性伸缩ESS(水平弹性)资源编排ROS弹性成功率弹性效率高性价比售卖形态可用区规格物理机间物理机内多级调度体系弹性供应持续弹性资源供应规划引擎当前库存销售预测机位容量功耗信息 资源交付持续有货的保障 供应链效率的极致优化 可用区、规格离线资源调度实例腾挪动态调配平衡搬迁采购提拉动态资源规划(多周期多阶段)物理机缺口转换模型过滤器权重器策略规则中心销售预测多维预测创建量:长短周期比例情况观察长周期增长相对稳定拆分保有量:长周期稳定+短周期波动大客户毛刺剔除按用户系统分层长周期稳定预测数据精细化奇异点分拆短周期稳定预测数据收集数据分析数据清洗算法预测数据补偿 通过有效的销售预测做好资
7、源规划 保障用户弹性体验的前提下最大化提升资源利用率资源调度性能保障 资源精准交付的保障 画像错峰调度ECS资源/数据/算法/运维物理机ECS调度系统性能预测/告警计算虚拟化块存储虚拟化网络虚拟化性能项监控物理机管控数据清洗/聚合/可视化性能项及资源利用率监控资资源源动动态态调调配配【单单机机】物理机/实例性能负载、整机性能画像数据、用户购买行为画像在在线线画画像像调调度度【单单元元】突发售卖水位线基准售卖水位线实例实例实例实例实例 规规格格突突发发模模型型(垂垂直直弹弹性性)资资源源争争抢抢探探测测修修复复【中中心心】2 21 13 34 4 部部件件服服务务调调度度【部部件件】单元调度中心
8、调度资源调度垂直弹性 通过资源消费“面积”积分算法,精确计算用户积分的积攒和消耗 时域和空间域的错峰弹性,让用户拿到超额的资源累积积分资源利用率累积积分积分累积积分消耗资源利用率百分比Baseline/10%,15%Max积分初始积分时间分钟100%预支积分0t124+t124超额积分累计积分消耗殆尽,可按需使用计算性能预支积分超额积分付费按需使用t2智能售卖千千全链路:从资源规划期的查询评估和需求管理,到智能主动推荐,到购买时的资源开启全渠道:满足大中小客户的供应需求全方式:兼顾不同用户的不同使用方式和习惯,提供控制台,API,企业群,智能客服等多种方式的服务接入智智能能交交付付推推荐荐大大
9、脑脑需需求求管管理理资资源源诊诊断断消消息息中中心心智智能能推推荐荐资资源源交交付付?规格查询?保有资源风险预警?智能预测需求提醒?规格不可见?地域不可见?购买失败诊断?产品迭代?可用区有限关闭?到货通知?预定事件?可用区推荐?规格推荐?购买形态推荐?性能推荐?指定时间资源预定?资源保障?弹性供应组?候补生产智能售卖平弹性 基于用户画像的规划算法,根据用户设定的购买量和简单规则自动帮助用户用最低价格最合适的规格和售卖形态购买资源 可用区、规格、售卖形态在线资源调度73%可用区C47%可用区D42%计计算算资资源源总总需需求求按量付费抢占实例26%可用区A59%可用区B33%可选策略组合(自定义
10、优先、成本优化)可可选选规规格格sn1ne,c5,g5等调度系统因子(价格、性能、库存)AACCBBBDDDD规划引擎BBB售售卖卖方方式式比比例例30%70%1000vCPU请请求求弹弹性性供供应应组组(AutoProvisioningGroup)资资源源规规划划交交付付资资源源池池用户画像(比如高网络负载用户使用网络增强型规格)可用区A sn1ne 按量*台可用区B sn1ne 按量*台可用区B c5 SPOT *台弹性编排效弹性E ES SS S 弹弹性性伸伸缩缩的的几几种种模模式式R RO OS S 资资源源编编排排:部部署署自自动动化化,快快速速交交付付集集群群 模版 资源编排引擎
11、资源栈定定时时模模式式根据配置定时(如周五13:00:00)地增加或减少ECS实例动动态态模模式式基于云监控指标(比如CPU使用率)负载情况,根据配置自动伸缩高效弹性生产背后的技术:1.售卖生产解耦异步化2.从镜像到存储到虚拟化的全链路优化3.基于画像的预规划调度,提前资源保障手手动动+动动态态模模式式手动添加包年包月实例(不会被移出伸缩组)确保业务基座定定时时+动动态态模模式式在定时配置进行扩缩容的基础上,根据监控指标动态进一步调整ECS实例数目录1.弹性调度的挑战2.弹性调度的技术内幕3.资源交付弹性调度最佳实践 1)高弹性成功率:SaaS 用户的弹性调度实践 2)高资源确定性:SaaS
12、用户的资源确定性调度实践 3)高弹性效率:Serverless 容器服务的弹性调度实践 4)极速交付部署:钉钉 10 万台云服务器的快速资源交付实践 5)高性价比:流量波动无状态用户低成本调度实践4.总结SaaS 户弹性成功率调度实践【智能售卖-弹性供应组】多可用区多规格调度、重启变配等多项措施保障高弹性成功率成本最优模式保障价格最优【智能售卖-资源预定】【事件通知】VPC网络业务调度 弹性供应组成本、性能、稳定性等规划因子ECS可用区列表规格*C*G磁盘规格列表 ECS事件中心可用区、规格等变化事件通知 ECS智能售卖GPU等定制规格提前资源预定重启弹性变配调度到更优资源多可用区多规格资源规
13、划重调度机制业业务务需需求求和和痛痛点点解解决决方方案案&关关键键技技术术落落地地效效果果SaaS 用户增长量大,且经常启动,有高弹性成功率诉求高弹性成功率SaaS 户资源确定性调度实践 某独立软件供应商,内部云平台以按量付费的方式运行在 ECS 上。为保障服务云平台的更新经常需要做自动化系统升级。整个升级过程的主要诉求和痛点为:资资源源确确定定性性:升级过程释放部分 ECS 再开通;需要保证重新开通的资源能够 100%开通成功 成成本本控控制制:在保证资源确定性的基础上实现成本优化,不能因资源确定性产生额外的闲置资源费用业业务务需需求求和和痛痛点点 确确定定性性:提供了升级过程资源保障,支持
14、业务的顺畅运行 成成本本:使用节省计划支持用户需求的同时帮助用户相对按量 30%+以上的成本优化 采用 立即生效的容量预定(iCR)+节省计划+私有资源池的解决方案【智能售卖】i iC CR R 保保证证资资源源确确定定性性:iCR 对应的私有池相当于小型“独立 IDC”保证私有池内资源确定性节节省省计计划划和和容容量量调调整整帮帮助助成成本本优优化化:节省计划与纯按量相比,提供了较好的折扣价格;同时私有池的扩容与缩容的功能,能够保证业务顺畅同时减少不必要的资源浪费落落地地效效果果解解决决方方案案&关关键键技技术术Serverless 弹性效率调度实践ServerlessPod调度 ECS成本
15、、性能、稳定性等规划因子ECS可用区列表云桌面规格*C*G磁盘规格列表多可用区多规格推荐规划重调度机制资源复用池【弹性编排-动态伸缩】多可用区多规格调度【资源调度】基于画像的预规划调度计算、网络等资源池复用业业务务需需求求和和痛痛点点落落地地效效果果Serverless 周期短,频繁创建释放,对弹性速度有诉求高弹性效率解解决决方方案案&关关键键技技术术基于画像的预规划调度 7月27日,在可信云测评上,阿里云使用【弹性伸缩ESS】,在1106秒(约18分)内完成了1万台云服务器的扩容ECS 效交付调度实测单VM主流规格钉钉 10 万台 ECS 效交付实践钉钉扩容集群ROS ECS资源交付多可用区
16、多规格资源规划ECS半天扩容了30+万VCPU,ROS资源编排100倍的部署效率提升资源预定报备资源供应规划资源复用网络数据库ROS资源模版ROS资源依赖管理解解决决方方案案&关关键键技技术术落落地地效效果果机型、时域粒度的资源复用多地域规模化资源交付【弹性供应】ROS资源编排流量波动状态户低成本调度实践使用ESS多可用区多规格+抢占式实例提前补偿策略,在spot实例到期前弹性伸缩自动选择最低价实例补齐算力,避免spot实例的断崖式释放时间轴spot实例按量实例:时间2时间3208断崖式释放扩容成功替补释放的实例提前补偿机制spot实例要被释放前5分钟开始进行替换实例的准备时间1提前进行补偿操
17、作实例数量spot实例被系统释放重新扩容出来客客户户业业务务需需求求和和痛痛点点落落地地效效果果降低70%成本白天流量是晚上的几十倍,价格敏感,寻求最低成本的算力解解决决方方案案&关关键键技技术术目录1.弹性调度的挑战2.弹性调度的技术内幕3.资源交付弹性调度最佳实践4.总结总结&作感悟弹性是云计算的重要红利,用户有高弹性成功率、高交付效率、高性价比诉求弹性有多个维度,包括时域、空间、垂直弹性、水平弹性弹性调度涉及到售卖形态、可用区、规格、物理机、机架等多维调度体系弹性调度包括弹性供应、资源调度、智能售卖、弹性编排等几个关键技术弹性调度技术里使用了较多的预测、动态规划等智能模型和算法更聪明的全力以赴?用户服务上智能的弹性按时按量更高性价比交付?工作上有创造性的努力?技术上有专业权威的深度和广度