闪电联盟软件论坛

主题：苹果披露其AI模型训练策略：从大规模网络抓取到秘密授权交易和合成内容

长安一片月发表于 2025-07-22 13:44

　　WWDC大会主要围绕其操作系统即将推出的全新视觉设计语言Liquid设计展开，同时苹果也宣布了下一代AI基础模型，这些模型将同时支持设备端和云端。大会结束后，这家科技巨头似乎准备通过一份详尽的技术报告，让用户和科技界深入了解其模型的训练和优化过程，从而更好地理解苹果的AI战略。苹果在报告中强调，其在训练模型时，真正注重隐私和效率。
　　尽管在当下的人工智能领域并不算举足轻重，苹果公司还是发布了一份关于其基础模型的详细报告，名为《Apple Intelligence基础语言模型——2025年技术报告》，该报告深入介绍了最新人工智能模型的关键要素。这份报告几乎涵盖了所有内容，从模型架构到训练阶段、训练后阶段，以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法，以提高模型效率，同时避免隐私泄露。
　　虽然苹果此前曾分享过可供开发者使用的设备端AI模型，以及其拥有的30亿个参数，但其局限性在于其结构迄今为止较为稀疏。据报道，该模型被分成多个部分以提高效率。第一部分称为Block 1，包含超过60%的核心构建块（称为转换层）。之后，AI会理解语言的主要表达方式，并生成响应。
　　第二部分称为Block 2，由于移除了两个占用大量内存的技术部件：键和值投影，因此更轻量。得益于这一策略，苹果能够将模型的内存占用减少约38%，甚至加快模型的响应时间。该公司一直在研究如何在本地提升其AI模型的性能，几年前，他们曾探索过运行一个比设备内存容量更大的模型的想法。虽然最终没有采用既定方案，但他们一直在寻找应对硬件限制和其他挑战的方法。
　　关于AI模型的服务器端，苹果确保其私有云计算系统采用定制架构。这种方法被称为并行轨道混合专家（PT-MoE），这是一种巧妙的策略，简而言之，它将大型AI模型分解成更小的部分，称为专家。现在，通过将模型划分为专家混合模型，模型无需每次都完全运行；相反，它可以只关注与当前任务相关的专家。只有模型中具有该领域专业知识的部分才会被激活，从而节省性能并提高效率。
　　此外，苹果还设计了一种名为“并行轨道Transformer”的全新Transformer架构，该架构拥有多个独立运行的轨道，仅在关键点协同工作。正因如此，该模型不会出现系统范围的延迟。这家科技巨头还解决了Apple Intelligence的一个最大痛点：对语言的支持有限。
　　凭借新模型，苹果显著提升了多语言能力。为了扩展语言支持，苹果将训练过程中非英语数据的比例从8%提升至30%，涵盖真实内容和AI生成的内容，从而提升模型的理解能力，并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。在训练新的AI系统时，苹果大量依赖其自主研发的网络爬虫Applebot收集的网络数据，这些数据也已在之前的模型中使用。有趣的是，由于苹果尊重隐私，如果网站不想被爬取，就不会使用其内容。
　　该公司使用多种技术来训练其模型；主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容，并专注于有用且切题的数据集。同样，这家科技巨头也依赖出版商的授权内容，尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据，尤其是在涉及图像语言任务、代码或指令执行时，以便更好地进行微调。
　　这种多方法也涉及视觉数据，因为这家巨头拥有超过100亿个图像-字幕对，包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于Apple构建更智能、更强大的模型。Apple训练其AI模型的方法非常清晰。这是一种平衡的策略，既能确保系统保持强大和多功能性，又不会损害其核心价值：隐私。

浏览大图

回帖(0)：

全部回帖(0)»

最新回帖
收藏本帖
发新帖