[业界新闻]苹果与NVIDIA的合作将AI模型的生产速度提升数倍 [复制链接]

上一主题下一主题查看指定楼层

离线长安一片月

UID: 331538

荣誉会员

发帖: 7651

今日发帖

最后登录: 2025-02-22

只看楼主倒序阅读使用道具楼主发表于: 2024-12-20 13:24:35

自助获取论坛邀请码

　　苹果公司最新的机器学习研究可以使Apple Intelligence的模型创建速度更快，因为它提出了一种技术，在使用NVIDIA GPU时，词元的生成速度几乎提高了三倍。

　　在为提供人工智能功能的工具和应用程序（如Apple Intelligence）创建大型语言模型（LLM）的过程中，存在的问题之一是首先创建LLM的效率低下。为机器学习训练模型是一个资源密集型的缓慢过程，通常需要购买更多的硬件并增加能源成本。

　　2024年早些时候，苹果公司发布并开源了Recurrent Drafter，即ReDrafter，这是一种在训练中提高性能的推测解码方法。它使用RNN（递归神经网络）草稿模型，将波束搜索与动态树关注相结合，用于预测和验证来自多条路径的草稿标记。

　　与典型的自动回归标记生成技术相比，这将LLM标记生成速度提高了3.5倍。

　　在苹果公司机器学习研究网站的帖子中，苹果公司解释说，除了使用Apple Silicon的现有工作外，该团队并未止步于此。本周三发布的新报告详细介绍了该团队如何将研究成果应用于ReDrafter的创建，使其能够与NVIDIA GPU配合使用。

　　用于生成LLM的服务器通常采用NVIDIA GPU，但高性能硬件往往需要高昂的成本。仅硬件一项，多GPU服务器的成本就超过250000美元，更不用说所需的基础设施或其他相关成本了。

　　苹果与NVIDIA合作，将ReDrafter集成到NVIDIA TensorRT-LLM推理加速框架中。由于ReDrafter使用了其他推测解码方法没有使用的运算符，因此NVIDIA必须添加额外的元素才能使其正常工作。

　　通过整合，在工作中使用NVIDIA GPU的ML开发人员现在可以在使用TensorRT-LLM进行生产时使用ReDrafter的加速令牌生成功能，而不仅仅是那些使用Apple Silicon的开发人员。

　　在NVIDIA GPU上对数以百亿计的参数生产模型进行基准测试后发现，贪婪编码的每秒生成令牌的速度提高了2.7倍。

　　其结果是，该过程可用于最大限度地减少对用户的延迟，并减少所需的硬件数量。简而言之，用户可以期待从基于云的查询中获得更快的结果，而公司则可以在花费更少的情况下提供更多服务。

　　在NVIDIA的技术博客上，这家显卡生产商表示，此次合作使TensorRT-LLM"功能更强大、更灵活，使LLM社区能够创新出更复杂的模型并轻松部署它们"。

　　该报告是在苹果公司公开证实其正在调查是否可能使用亚马逊的Trainium2芯片来训练用于Apple Intelligence功能的模型之后发布的。当时，该公司预计使用该芯片进行预训练的效率将比现有硬件提高50%。

离线lenneth

UID: 354312

正式会员

发帖: 1058

今日发帖

最后登录: 2025-02-23

只看该作者沙发发表于: 2024-12-23 09:03:05

自助获取论坛邀请码

苹果与NVIDIA合作，AI模型生产速度大幅提升，提升数倍。双方技术融合，为人工智能领域带来革命性进展。

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选