论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 16阅读
  • 0回复

[业界新闻]苹果与NVIDIA的合作将AI模型的生产速度提升数倍 [复制链接]

上一主题 下一主题
 

发帖
7078
今日发帖
最后登录
2024-12-21
只看楼主 倒序阅读 使用道具 楼主  发表于: 2024-12-20 13:24:35
  苹果公司最新的机器学习研究可以使Apple Intelligence的模型创建速度更快,因为它提出了一种技术,在使用NVIDIA GPU时,词元的生成速度几乎提高了三倍。 {d?$m*YR3`  
np~~mdmRK  
  在为提供人工智能功能的工具和应用程序(如Apple Intelligence)创建大型语言模型(LLM)的过程中,存在的问题之一是首先创建LLM的效率低下。为机器学习训练模型是一个资源密集型的缓慢过程,通常需要购买更多的硬件并增加能源成本。 PfkrOsV/m  
~F1:N>>_Cf  
  2024年早些时候,苹果公司发布并开源了Recurrent Drafter,即ReDrafter,这是一种在训练中提高性能的推测解码方法。它使用RNN(递归神经网络)草稿模型,将波束搜索与动态树关注相结合,用于预测和验证来自多条路径的草稿标记。 (%`Q hH  
< })'Y~i  
  与典型的自动回归标记生成技术相比,这将LLM标记生成速度提高了3.5倍。 S4=R^];l  
@)K%2Y`  
  在苹果公司机器学习研究网站的帖子中,苹果公司解释说,除了使用Apple Silicon的现有工作外,该团队并未止步于此。本周三发布的新报告详细介绍了该团队如何将研究成果应用于ReDrafter的创建,使其能够与NVIDIA GPU配合使用。 : }`-B0  
iDf,e Kk$'  
  用于生成LLM的服务器通常采用NVIDIA GPU,但高性能硬件往往需要高昂的成本。仅硬件一项,多GPU服务器的成本就超过250000美元,更不用说所需的基础设施或其他相关成本了。 Un6/e/6,  
H{t_xL)k.  
  苹果与NVIDIA合作,将ReDrafter集成到NVIDIA TensorRT-LLM推理加速框架中。由于ReDrafter使用了其他推测解码方法没有使用的运算符,因此NVIDIA必须添加额外的元素才能使其正常工作。 j) ,,"54*  
s@fTj$h  
  通过整合,在工作中使用NVIDIA GPU的ML开发人员现在可以在使用TensorRT-LLM进行生产时使用ReDrafter的加速令牌生成功能,而不仅仅是那些使用Apple Silicon的开发人员。 `c'W-O/  
JsotOic%  
  在NVIDIA GPU上对数以百亿计的参数生产模型进行基准测试后发现,贪婪编码的每秒生成令牌的速度提高了2.7倍。 `SVmQSwO[  
v(p mI b{  
  其结果是,该过程可用于最大限度地减少对用户的延迟,并减少所需的硬件数量。简而言之,用户可以期待从基于云的查询中获得更快的结果,而公司则可以在花费更少的情况下提供更多服务。 GIAc?;zY  
)Z %T27r,^  
  在NVIDIA的技术博客上,这家显卡生产商表示,此次合作使TensorRT-LLM"功能更强大、更灵活,使LLM社区能够创新出更复杂的模型并轻松部署它们"。 +}-@@,  
MCdx?m3]  
  该报告是在苹果公司公开证实其正在调查是否可能使用亚马逊的Trainium2芯片来训练用于Apple Intelligence功能的模型之后发布的。当时,该公司预计使用该芯片进行预训练的效率将比现有硬件提高50%。 u<n Lag