用户本地用的是40核 Intel(R) Xeon(R) Gold 5218R CPU @ 2.10GHz 运行36个小时
在蓝图心算超算平台上使用配置为单节点56核,Intel® Xeon® Gold 6258R Processor@2.7GHz;192G内存;IB高速网100Gps,DDR4,超算使用112核,8个小时运行完成。
在lammps中MEAM(Modified Embedded Atom Method)势函数是金属体系常用的多体势函数,其计算逻辑对 “多核并行” 和 “硬件规格” 有明确的适配性,而超算的配置恰好最大化了这种适配优势。
超算针对 MEAM 势函数单独编译,启用了以下优化:
Intel 编译器优化:使用 Intel oneAPI(icc/icpc 编译器)编译,启用-O3(最高级优化)、-xCORE-AVX512(针对 Intel 6258R 的 AVX512 指令集优化),MEAM 势函数的向量运算(如多原子同时计算)可充分利用 AVX512 的 512 位宽寄存器,单指令处理更多数据;
MEAM 模块单独加速:LAMMPS 的 MEAM 包(pair_meam)在编译时可链接 Intel Math Kernel Library(MKL),进一步优化矩阵运算和数值计算效率。
硬件基础提升(约 2.5-3 倍):超算112核(本地40核)×28.6% 主频提升,理论上硬件基础性能是本地的 (112/40)×1.286≈3.6 倍;考虑到多节点并行并非100%效率(实际效率约70%-80%),硬件实际贡献的基础速度提升约2.5-3 倍。
编译与并行优化(再提升 1.5-2 倍):针对MEAM的Intel编译器 + MKL优化,可额外带来 30%-50% 的效率提升;同时超算的高带宽内存减少了数据传输瓶颈,避免本地可能出现的 “内存等待” 耗时。两者叠加,进一步将速度再提升1.5-2 倍。
总提升(2.5-3 倍 × 1.5-2 倍 ≈ 4-6 倍):实际速度提升 4.5 倍(36/8=4.5),完全落在 “硬件 + 优化” 的理论提升区间内,说明超算的配置和编译没有浪费性能,实现了高效利用。