75阅读
0回复

[业界新闻]英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载 [复制链接]

上一主题下一主题查看指定楼层

离线长安一片月

UID: 331538

荣誉会员

发帖: 7421

今日发帖

最后登录: 2025-01-24

只看楼主倒序阅读使用道具楼主发表于: 2024-09-25 14:06:11

自助获取论坛邀请码

　　英伟达9月23日发布博文，宣布推出Llama-3.1-Nemotron-51B AI模型，源自Meta公司的Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。

　　Llama-3.1-Nemotron-51B简介

　　Llama-3.1-Nemotron-51B AI模型将于Meta公司2024年7月发布的Llama-3.1-70B模型，共有510亿参数。

　　该AI模型主要采用了神经架构搜索（NAS）技术微调，平衡性能和效率，在高工作负荷下，只需要一片H100 GPU即可运行，大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

　　英伟达认为这种方式在保持了出色的精度前提下，显著降低了内存占用、内存带宽和FLOPs，并证明可以在创建另一个更小、更快的变体来加以推广。

　　Llama-3.1-Nemotron-51B性能

　　相比较Meta的Llama-3.1-70B模型，Llama-3.1-Nemotron-51B在保持了几乎相同的精度情况下，推理速度提高了2.2倍。

　　效率和性能方面的突破

　　开发LLM过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果，但却需要耗费大量的硬件和能源资源，这限制了它们的适用性。

　　英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。

　　Llama-3.1-Nemotron-51B实现了令人印象深刻的精度与效率权衡，减少了内存带宽，降低了每秒浮点运算次数(FLOP)，并减少了总体内存占用，同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

　　改进工作量管理，提高成本效益

　　Llama-3.1-Nemotron-51B的一个突出特点是能够在单个GPU上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能LLMs，在一个H100设备上运行以前需要多个GPU才能完成的任务。

　　Llama-3.1-Nemotron-51B模型还减少了内存占用，在推理过程中可以在单个GPU上运行4倍以上的工作负载，从而带来了一系列新的机遇。

　　架构优化：成功的关键

　　Llama-3.1-Nemotron-51B的成功主要归功于一种新颖的结构优化方法。传统上，LLMs是使用相同的块构建的，这些块在整个模型中重复出现。

　　这虽然简化了构建过程，但也带来了效率低下的问题，特别是在内存和计算成本方面。

　　英伟达通过采用NAS技术来优化推理模型，从而解决了这些问题。该团队采用了分块蒸馏过程，即训练更小、更高效的学生模型（student model），以模仿更大的教师模型（teacher model）的功能。

　　通过完善这些学生模型并评估其性能，英伟达开发出了Llama-3.1版本，在大幅降低资源需求的同时，还能提供类似的准确度。

　　Puzzle算法和知识蒸馏

　　Llama-3.1-Nemotron-51B有别于其他模型的另一个关键组件，就是Puzzle算法。

　　该算法对模型中的每个潜在区块进行评分，并确定哪些配置能在速度和精度之间取得最佳平衡。

　　通过使用知识蒸馏技术，Nvidia缩小了参考模型（Llama-3.1-70B）与Nemotron-51B之间的精度差距，同时显著降低了训练成本。

附上参考地址

Advancing the Accuracy-Efficiency Frontier with Llama-3.1-Nemotron-51B

Nvidia AI Releases Llama-3.1-Nemotron-51B: A New LLM that Enables Running 4x Larger Workloads on a Single GPU During Inference

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[业界新闻]英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载 [复制链接]