论坛风格切换
正版合作和侵权请联系 sd173@foxmail.com
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 47阅读
  • 0回复

[业界新闻]英伟达发布 Llama-3.1-Nemotron-51B AI 模型:创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载 [复制链接]

上一主题 下一主题
 

发帖
6747
今日发帖
最后登录
2024-11-18
只看楼主 倒序阅读 使用道具 楼主  发表于: 2024-09-25 14:06:11
  英伟达9月23日发布博文,宣布推出Llama-3.1-Nemotron-51B AI模型,源自Meta公司的Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。 6R1wn&8  
MzEm*`<  
  Llama-3.1-Nemotron-51B简介 !,cQ'*<W8-  
f >mhFy  
  Llama-3.1-Nemotron-51B AI模型将于Meta公司2024年7月发布的Llama-3.1-70B模型,共有510亿参数。 Q`.'-iq  
`z9)YH  
  该AI模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负荷下,只需要一片H100 GPU即可运行,大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。 "/ tUA\=j  
K&=1Ap  
  英伟达认为这种方式在保持了出色的精度前提下,显著降低了内存占用、内存带宽和FLOPs,并证明可以在创建另一个更小、更快的变体来加以推广。 |av*!i5Q  
BFBR/d[&  
  Llama-3.1-Nemotron-51B性能 J[ e}  
S~+O` y^  
  相比较Meta的Llama-3.1-70B模型,Llama-3.1-Nemotron-51B在保持了几乎相同的精度情况下,推理速度提高了2.2倍。 UWQtvQ f  
i&'#+f4t  
  效率和性能方面的突破 .)LZ`Ge3F  
v<L=!-b^  
  开发LLM过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果,但却需要耗费大量的硬件和能源资源,这限制了它们的适用性。 ^I]LoG:  
<RhOjZgyZ  
  英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。 d{er |$E?  
qBT_! )h   
  Llama-3.1-Nemotron-51B实现了令人印象深刻的精度与效率权衡,减少了内存带宽,降低了每秒浮点运算次数(FLOP),并减少了总体内存占用,同时不影响模型执行推理、总结和语言生成等复杂任务的能力。 }5Yj  
!Tv?%? 2l  
  改进工作量管理,提高成本效益 "yg.hK`  
hHcJN  
  Llama-3.1-Nemotron-51B的一个突出特点是能够在单个GPU上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能LLMs,在一个H100设备上运行以前需要多个GPU才能完成的任务。 T!MZ+Ph`F  
!n|#|.0m  
  Llama-3.1-Nemotron-51B模型还减少了内存占用,在推理过程中可以在单个GPU上运行4倍以上的工作负载,从而带来了一系列新的机遇。 + c`AE  
?#d6i$  
  架构优化:成功的关键 :.Y|I[\E%  
js~tKUvg  
  Llama-3.1-Nemotron-51B的成功主要归功于一种新颖的结构优化方法。传统上,LLMs是使用相同的块构建的,这些块在整个模型中重复出现。 W%TQYR  
b)N[[sOt  
  这虽然简化了构建过程,但也带来了效率低下的问题,特别是在内存和计算成本方面。 d:A}CBTSY  
W7t >&3l  
  英伟达通过采用NAS技术来优化推理模型,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。 Y=r!2u6r~  
(B@X[~  
  通过完善这些学生模型并评估其性能,英伟达开发出了Llama-3.1版本,在大幅降低资源需求的同时,还能提供类似的准确度。 =/[ltUKs:a  
Bp :~bHf  
  Puzzle算法和知识蒸馏 <0#^7Z  
WE0}$P:  
  Llama-3.1-Nemotron-51B有别于其他模型的另一个关键组件,就是Puzzle算法。 @<2d8ed  
c7\VTYT  
  该算法对模型中的每个潜在区块进行评分,并确定哪些配置能在速度和精度之间取得最佳平衡。 W;4Lkk$  
cph~4wCS[U  
  通过使用知识蒸馏技术,Nvidia缩小了参考模型(Llama-3.1-70B)与Nemotron-51B之间的精度差距,同时显著降低了训练成本。 a5|@R<iF  
^=^$tF  
$_sYfU9  
-ey)J +?t  
qe?Qeh(!X  
附上参考地址 D?^Y`G$.  
|m)kN2w  
    Advancing the Accuracy-Efficiency Frontier with Llama-3.1-Nemotron-51B Z&Ue|Z4Qt  
UP2}q?4  
    Nvidia AI Releases Llama-3.1-Nemotron-51B: A New LLM that Enables Running 4x Larger Workloads on a Single GPU During Inference u^=`%)