加入收藏 | 设为首页 | 会员中心 | 我要投稿 广州站长网 (https://www.020zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

发布时间:2019-01-26 10:11:36 所属栏目:外闻 来源:阿里技术
导读:副标题#e# 如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个变更沙盘,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变
副标题[/!--empirenews.page--]

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。

近期,阿里巴巴-南大联合研究院联合实现并上线完成了一个高精度,可连接实时监控系统、基于 CFD 的变更沙盘系统。本系统在 off-the-shelf CFD 软件上实现了工业级精度的变更沙盘测试和验证。今天,我们就来观摩这个从零到一的尝试。

项目背景

随着阿里巴巴业务不断拓展,其数据中心规模也越来越大。相应地,数据中心内的日常演练、运营优化等变更操作越来越频繁;而规模增加导致环境的复杂程度呈指数增长,变更是否可能导致故障,仅凭专家经验,已经越来越难以判断。同时,数据中心变更故障可能造成的业务影响也越来越大,可能造成的损失已难以估计。所以,机房运营人员急需一个标准化的、可靠的机房变更安全验证系统,帮助他们获知变更产生的具体效果会是如何,是否影响生产安全,是否有更合理的变更建议。

对于电力变更,可以从电力拓扑图着手构建变更沙盘。但暖通变更,涉及到气流组织变化、热力变化,这些东西看不见也摸不着,传统的方式难以模拟出现实世界中的变化。IDC 运营优化团队对此进行了一系列调研工作,认为利用计算流体力学(ComputationalFluid Dynamics,简称 CFD)进行机房仿真是较为可能达到生产标准的一种方式。

现有的类似的解决方案

利用计算流体力学(Computational Fluid Dynamics,简称 CFD)进行机房仿真是检查不同变更对机房的热力学影响的通用解决方案。CFD 建模可以通过搭建物理模型,载入现实中的热力学设置(冷热量,空调 server 风速等)来计算一个包间内部的气流分布和温度情况。CFD 模拟有较为成熟的技术积累,并被广泛应用与热力学和空气动力学领域。在数据中心领域,也有从包间到芯片级的 CFD 模拟应用。但由于其精度限制,一般只用于前期设计和规划。

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

数据中心包间流线图

应用 CFD 建立沙盘系统的挑战:

1)现有商业 CFD 软件可以根据对包间进行仿真,得到机房的热力分布、气流动向。但该软件通常应用于设计阶段,采用设计阶段的粗略数据进行模拟,对真实操作情况的还原度较低,温度预测精度仅能达到 3 度或以上,不能满足用于变更沙盘的精度需求。

2)当前 CFD 软件以人工交互为主,缺少对自动化操作的支持,不能满足自动获取数据和返回结果的需求。大量的操作只能通过人机交互进行,效率低下。

3)建模所需要的数据真实性问题。由于模型的准确性与其所采用的模拟设置与实际是否一致息息相关,因此获取的模拟设置信息(如功耗,空调设置信息等)准确性非常关键。通常这些信息是在设计阶段确定的,也有部分是运行时获得的。这些数据只有进行精细的核实才能保证建模的精度(反过来建模的过程可以反推设计实施情况和数据的标准化过程)。

我们的解决方案

阿里巴巴联合新加坡南洋理工大学(NTU)计算机科学与工程学院文勇刚教授团队,依托阿里巴巴-南大联合研究院平台,通过接近 1 年的研究,开发和测试,实现并上线完成了一个高精度,可连接实时监控系统的基于 CFD 的变更沙盘系统。本系统在 off-the-shelf CFD 软件上实现了工业级精度的变更沙盘测试和验证。

本次项目选定了某个机房包间作为技术试点,并在对该机房的物理建模,模型校准和工程落地上进行了紧密合作。

1)物理建模:

该过程主要将包间内各物理结构设置到模型,提供仿真基础。以达到最好还原度为准则,我们实现了下面所述方面的建模操作:

  • 结构建模:对机房结构、墙、通风口、天花板、管道进行设置

  • IT 部署建模:机列、机柜、机位设置

  • 环境建模:空调设备、传感器设置

  • 设备建模:按厂商型号导入服务器模型

2)模型校准

模型校准的主要原则需要达到下述 3 个方面的真实还原:

  • 机房冷热温度来源:校准中需要确认模型中冷热量与实际一致。

  • 机房气流变化原因:校准中需要保证冷热风气流与实际一致。

  • 温度测量数据:校准中需要保证模型预测温度与实际一致。

为了保证模型可以到工业级精度,项目团队进行了大量的数据核准和模型调整工作。这些工作全方位地对整个机房的相关信息和设置进行了梳理和核实,并形成了完整的标准化校准文档,为以后建模推广打下了坚实的基础。这些校准操作可以分为 2 类:

第 1 类:数据核准

  • 服务器核准(包含:少数服务器U位冲突、服务器功耗校准)

  • 传感器核准(包含:空调供风温度、转速和冷热通道传感器位置、数据)

第 2 类:模型调整

  • 热气泄露设置调整,热气泄露会导致冷通道温度升高。

  • 机柜模拟模式调整,设置为细粒度模拟模式。

  • Server 风量设置调整,精确设置 server 风速以符合实际需求。

依托大量的传感器数据,通过上述校准操作,最终模型达到了设计阶段 CFD 使用未有过的精度。这些精度来源于我们精确地还原各项硬件的布置,各个操作的数据核准和细粒度的 server 风速校准。

3)工程落地

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

(编辑:广州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读