Metadata
Title
SJTU HPC
Category
general
UUID
445fedde17f548439569cb17b75d5c8f
Source URL
https://hpc.sjtu.edu.cn/Item/Hardware.htm
Parent URL
https://net.sjtu.edu.cn/xxfw/gxnjsfw.htm
Crawl Time
2026-03-13T07:56:12+00:00
Rendered Raw Markdown

SJTU HPC

Source: https://hpc.sjtu.edu.cn/Item/Hardware.htm Parent: https://net.sjtu.edu.cn/xxfw/gxnjsfw.htm

平台资源

高性能计算硬件资源

上海交通大学“交我算”平台提供的高性能计算资源总聚合算力 320 PFLOPS(每秒千万亿次),聚合存储能力 75 PB。硬件资源包含“致远一号”国产千卡智算平台、国内高校一流的绿色水冷“思源一号”高性能计算平台、π 2.0 高性能计算平台、国内高校首个国产ARM计算平台、科学大数据平台等。

“致远一号”国产千卡智算平台于2025年9月建成,专注于前沿科研、课程创新和人才培养,提供可靠、高效、易用的AI算力支持。平台以软硬一体、全面协同的架构,为校内师生及合作机构打造了全方位的智算服务体系。

平台硬件配置包括1024张华为昇腾910B加速卡,FP16峰值算力313P,配合Pacific分布式存储与BurstBuffer架构,总存储容量13.6PB。计算方面,配备101台CPU节点,形成5000+ vCPU的通用计算池;云服务支持IaaS、PaaS、SaaS全栈功能,具备异构算力调度与云化弹性部署,能够满足教学、科研和管理等多样化需求。

网络与算力资源由智算集群区、云平台区和存储区构成。智算集群区部署128台Atlas 800T A2昇腾服务器,共1024张NPU卡,峰值算力320P,每机柜安装5台,单柜功率30kW。网络架构分为参数面(200GE RoCE,1:1收敛,32台CE9855 Leaf + 16台CE9855 Spine)、业务面(100GE,SDI智能网卡,8台CE8850 Leaf + 2台CE9865-4C Spine)和样本面(25GE RoCE,1:1收敛,8台CE6865E Leaf + 4台CE8850 Spine)。云平台区基于HCSO和ModelArts,配置101台鲲鹏Taishan 200 2280 V2服务器及60台网络设备,并提供2PB云对象存储、1PB云块存储和1.6PB云文件存储。存储区采用全闪与混闪架构,全闪Pacific 9950提供43节点、6.5PB容量,混闪Pacific 9550提供12节点、2.5PB容量,为并行计算与大规模模型训练提供高效数据支撑。

机房建设方面,平台共设52个47U加高机柜,分布在3组封闭微模块中,其中34个用于智能计算服务器(单柜功率30kW),18个用于存储和网络服务器(单柜功率20kW)。供电系统额定功率960kW,机房配电总功率1380kW,采用小母线架构,每个机柜配备双路PDU,存储和网络机柜还接入UPS,断电可维持15分钟不间断供电。制冷系统配置30台风冷列间精密空调,单台60kW,按“N+2”冗余方案部署,总制冷功率1440kW,并采用氟泵双循环自然冷却技术,全年综合PUE约1.3,兼顾高效与节能。

类型 设备 参数 数量
计算 CPU节点 CPU: 2*Kunpeng 920 Mem: 2048GB DDR5(4800MHZ)/512GB DDR5(4800MHZ)/1024GB DDR5(4800MHZ) 101
NPU节点 CPU:4*Kunpeng 920 NPU: 8*昇腾AI处理器 128
存储 高性能分布式存储节点 可用容量:2.5PB 型号:OceanStor Pacific 9950 主存盘:7.68T NVMe SSD*10 43
高容量分布式存储节点 可用容量:6.5PB 型号:OceanStor Pacific 9550 主存盘:16T SATA HDD *50 12
云存储 总可用容量:4.6PB 1
网络 参数面高性能交换机 主型号:CE9855-32DQ 端口:32 x 400GE + 2 x 10GE 交换容量:25.6Tbps 包转发率:8000Mpps 48
样本面高性能交换机 主型号:CE8850-64CQ-EI 端口:64 x 100 GE 交换容量:12.8Tbps / 204.8Tbps 包转发率:4,482Mpps 24

\ - “思源一号”高性能计算平台建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算),是目前国内高校第一的超算集群,TOP500 榜单排名第132位。CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。“思源一号”贯彻绿色计算理念,采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%。计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB。集群额定功率900kW,其中IT设备额定功率800kW,制冷、配电设备额定功率100kW。单机柜(水冷)额定功率55kW,机柜总数18个,PUE约1.10。

平台 设备 参数 数量
杨元庆 科学计算中心 “思源一号” CPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores) Mem: 16 x 32GB TruDDR4 3200 MHz (2Rx8 1.2V) RDIMM 938
GPU 节点 CPU: 2 x Intel Xeon ICX Platinum 8358 (2.6GHz, 32 cores) GPU: 4 x NVIDIA HGX A100 40GB 23
GPFS 并行存储容量 10 PB

\ - π 2.0 高性能计算平台建于 2019 年,双精度理论峰值性能为 2.1 PFLOPS,是国内高校和上海地区最快的超算之一。π 2.0 是国内最早使用 Intel Cascade Lake CPU 构建的超算,拥有 656 台计算节点,共计 26240 个 CPU 核,可同时支持 HPC 与 AI 应用。计算节点之间使用 100 Gbps 的 Intel OmniPath 互联。集群额定功率580kW,其中IT设备额定功率350kW,人工智能计算平台额定功率80kW,制冷、配电设备额定功率150kW。单机柜额定功率13kW,机柜总数28个,PUE约1.41。

π 2.0 高性能计算平台 GPU 节点双精度计算能力达到 1 PFLOPS,张量计算能力达到 16 PFLOPS,其计算能力由 8 台 NVIDIA DGX-2 服务器提供。每台 DGX-2 配置 16 块 Tesla V100 GPU 加速卡,2 颗 Intel 至强铂金 8168 CPU,1.5 TB DDR4 内存,30 TB NVMe SSD 和 512GB HBM2 显存。数据传输上,GPU 卡之间使用 NVSWITCH 交换芯片实现 NVLINK 高速无阻塞全互联,互连带宽达到 300 GB/s,每台 DGX-2 NVSWITCH 总数达到 12 个,提供 2.4 TB/s 半分带宽;8 台 NVIDIA DGX-2 服务器之间则使用 Mellanox 100 Gbps Infiniband EDR 全线速无阻塞交换机互联。

平台 设备 参数 数量
π 2.0 高性能计算平台 CPU 节点 CPU: 2 x Intel Xeon Cascade Lake 6248 (2.5GHz, 20 cores) Mem: 12 x Samsung 16GB DDR4 ECC REG 2666 656
CPU 节点 CPU: 4 x Intel Xeon SkyLake 6148 (2.4GHz, 20cores) Mem: 48 x Hynix 64G DDR4 ECC REG 2666 (3TB) 2
GPU 节点 CPU: 2 x Intel Xeon Cascade Lake 8168 (2.7GHz, 24 cores) GPU: 16 x NVIDIA Tesla V100 32GB 8
Lustre 并行存储容量 25 PB