爱游戏-16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型：3小时报错一次

2024-08-31

[导读]7月29日动静，现在的AI年夜模子范围愈来愈重大，动辄成百上千亿参数，练习进程不但需要数万乃至十几万块GPU加快卡，犯错的概率也愈来愈高。Meta(Facebook)就表露了一份惊人的陈述。 7月29日动静，现在的AI年夜模子范围愈来愈重大，动辄成百上千亿参数，练习进程不但需要数万乃至十几万块GPU加快卡，犯错的概率也愈来愈高。Meta(Facebook)就表露了一份惊人的陈述。 Meta在陈述中表露，为了练习本身的Llama 3 4050亿参数年夜模子，利用了包括16384块NVIDIA H100 80GB GPU的集群，一共花了45天，时代竟然呈现了419次不测报错，平均每3个小时就一次，而一半的毛病都和GPU和其自带的HBM3内存有关。要知道，年夜模子练习的工作量异常重大，并且需要高度同步，一次毛病便可能致使全部练习工作必需从头再来。陈述显示，为期45天的预练习阶段中，总共呈现了466次工作中止，此中47次是打算内的主动保护，419次是不测的，且年夜部门都来自硬件问题，GPU又是最多的，占了此中的58.7%。具体来讲，148次即30.1%的不测中止来自各类GPU掉效(包罗NVLink总线)，72次即17.2%来自HBM3内存掉效——究竟，700W的功耗太热了。还19次来自GPU SRAM，17次来自GPU处置器，6次来自GPU静默数据毛病，6次来自GPU散热和传感器。其他毛病来自软件bug、网线和网卡等等各个方面。有趣的是，CPU毛病只呈现了2次。还好，Llama 3团队很是给力，在这么高的犯错概率下，仍然保持了跨越90%的有用练习时候，并且只有三次GPU报错需要年夜量人工干涉干与，其他都被主动化治理改正了。

欲知详情，请下载word文档

下载文档

5月23日动静，据媒体报导，Meta的首席人工智能科学家、深度进修范畴的前驱杨立昆(Yann LeCun)近日对ChatGPT等生成式AI产物背后的年夜说话模子的能力提出了质疑。

要害字： Meta

据业内动静，近日 Meta、亚马逊等美国科江南体育技巨子纷纭出台严酷的复工复岗政策来催促员工来办公室工作，但愿员工能每周最少在办公室办公 3 天。

要害字： Meta 亚马逊

据业内最新动静，Meta 公司旗下最新推出的社交利用 Threads 的用户数目仅在几天内已跨越一亿，增加速度远远跨越此前颇具热度的 ChatGPT。

要害字： Meta Threads

爱游戏-BPO行业整合方案提供者

爱游戏-16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型：3小时报错一次