Skip to content

如何选择合适的算力

根据需求来区分:

模型训练与微调:建议使用A100, H800等算力,算力高,显存大,训练速度和效果更好。

模型训练所需算力参考公式:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的 token 数

模型训练所需显存大小至少是模型参数量10倍以上

模型训练时间参考公式:训练时间=(8token数模型参数量)/GPU数/GPU峰值flops/GPU利用率

模型推理与部署:在模型显存够用的情况下建议使用3090,4090;性价比更高。

模型推理所需算力参考公式:推理总算力(Flops) =2 * 输出 token 数量 * 参数数量

模型推理所需显存大小参考:FP32精度的模型,等于参数量×4(比如7B参数量就是7*4,不是70亿×4);FP16精度的模型,等于参数量×2,INT8精度的模型,等于参数量本身;INT4精度,等于参数量/2

注:以上公式均为参考,实际情况仍需根据具体需求选择

英伟达GPU各参数介绍:

架构:产品的核心架构。一般每一代产品都会更新架构,有独特的代号

浮点算力:代表显卡的浮点计算能力,越高算力越强。

张量核心数:Tensor Core 是 NVIDIA Volta 架构及后续中引入的一种特殊计算单元。

CUDA核心数:CUDA Core 是 NVIDIA GPU上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型

最大功耗:是一个描述处理器或其他芯片在设计时能够产生的最大热量的参数。选择散热解决方案时需要考虑,以确保系统的稳定性和性能

互联速度:是显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大

显存大小:显存容量决定着显存临时存储数据的多少,大显存能减少读取数据的次数,降低延迟

显存带宽:是指显存与其内部处理单元之间的数据传输速率。它表示显存子系统能够在一秒钟内传输的数据量。带宽越大,传递越快,性能越好

苏州算力科技有限公司版权所有