1200亿亿次每秒!阿里上线世界第一智算中心:1000卡并行
8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,同时上线两座超大规模智算中心(AI时代的数据中心),为科研、公共服务、企业机构提供强大的智能计算服务。
飞天智算平台源于阿里巴巴内部实践,两座新的超大规模智算中心都基于该平台,提供公共云、专有云两种模式。
其中,张北智算中心的AI算力规模为12EFLOPS(每秒1200亿亿次浮点运算),云端支持AI预训练大模型、AI Earth、数字人等前沿AI应用,是全球最大的智算中心。
乌兰察布智算中心算力为3EFLOPS(每秒300亿亿次浮点运算),位于“东数西算”内蒙古枢纽节点,采用自然风冷、AI调温等绿色技术,实现绿色低碳。
飞天智算平台通过先进的技术架构,千卡并行计算效率从传统的64%提高到90%,可将算力资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。
网络技术上,采用高性能RDMA网络,端对端延迟最低2微妙。
通信技术上,自研无阻塞通信技术,计算过程中的数据交换速度提升了5倍以上。
存储技术上,自研IO加速器,数据存取性能提升最高10倍。
大数据AI开发层,提供分布式训练框架,并通过API对分布式策略进行自动组合和调优,将训练效率提升11倍以上。
一站式AI计算开发服务,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,将推理效率提升6倍以上。
同时,平台可以运行在x86、GPU、ARM等多种芯片类型的服务器上,实现“一云多芯”,支持多种处理器混合部署、统一调度,并可进行应用优化,部分性能提升100%以上。
通过技术减排、能源结构优化、区域布局优化、供应链减碳、资源利用优化五个方面,平台降低了单位算力的碳排放,并通过液冷、电源技术、智能运维等方式降低能耗,PUE最低可达1。09。
阿里云浸没式液冷集群
如今,飞天智算平台已在阿里内部广泛应用,支撑达摩院前沿AI和电商智能技术发展,并服务小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业,支撑自动驾驶、新药研发、气象预测、工业能源等行业大幅提升AI训练效率。
小鹏汽车:基于飞天智算在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS(每秒60亿亿次浮点运算),是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍。
毫末汽车:基于飞天智算,实现128卡并行效率超96%,使自动驾驶模型训练成本降低62%,训练速度提升110%,模型迭代周期大幅缩短。
深势科技:采用飞天智算平台,将集群性能优化提升超过100%,分子动力学仿线倍以上。
智己汽车:运用高性能计算,将工业仿线%,智能驾驶训练效率提升70%。
山东德州电力:通过AI进行复核预测,准确率达到98%,耗时从1小时缩短至几分钟。
四川成宜高速:通过数字孪生,进行车路协同优化,使事故率降低60%。
重庆水务:通过遥感数据与仿真推演,实现水利调度预测准确性高达95%。
南方电网与中国气象局:利用智算能力,提升气象预报的准确性与稳定性。