闪电联盟 - Powered by phpwind

离线长安一片月

UID: 331538

荣誉会员

发帖: 8396

今日发帖

最后登录: 2025-05-12

只看楼主倒序阅读使用道具楼主发表于: 2025-02-28 10:22:28

自助获取论坛邀请码

　　今天，OpenAI发布了其新的非推理模型，GPT-4.5，这是迄今为止规模最大、知识最丰富的模型。顾名思义，GPT-4.5是在GPT-4o的基础上，在预训练过程中进一步扩展而成的。OpenAI已经确认，GPT-4.5并不是一个前沿模型，但它是他们最大的LLM，与GPT-4o相比，它拥有更多的世界知识、更好的写作技巧和更精致的个性。

　　GPT-4.5将拥有更好的书写能力、更丰富的世界知识，以及OpenAI所称的"比以前的模型更精致的个性"，但它不会引入足够多的新功能来被视为前沿模型。"GPT-4.5不是前沿模型，但它是OpenAI最大的LLM，比GPT-4的计算效率提高了10倍以上，"OpenAI在其发布前泄露的一份文件中说。"与之前的推理版本相比，它并没有引入7种全新的前沿能力，而且在大多数防备评估中，它的性能低于o1、o3-mini和深度研究。"

　　基准测试数据表明，GPT-4.5比GPT-4o的升级幅度不大。在SWE-bench Verified基准测试中，GPT-4.5达到了38%，比GPT-4o提升了2-7%，比OpenAI基于O3的深度研究模型低30%。相比之下，Anthropic的Claude 3.7 Sonnet在SWE-bench Verified上取得了相当于62.3%的性能。

　　最近，OpenAI的Preparedness团队开发了一个名为SWE-Lancer的新基准，用于评估LLM在实际软件工程任务中的性能，包括功能开发、设计、错误修复等。在这个新的基准测试中，GPT-4.5模型能够解决20%的IC SWE任务和44%的SWE Manager任务，比OpenAI的o1模型略有提高。

　　您可以在这里阅读新模型的细节：

　　https://openai.com/index/introducing-gpt-4-5/

　　在安全方面，根据准备评估的结果，OpenAI的安全顾问小组将新的GPT-4.5模型归类为总体中等风险。它在网络安全和模型自主性方面的得分也较低。

　　新的GPT-4.5模型研究预览版现在可供ChatGPT Pro用户使用，所有付费套餐的开发者也可通过API使用该预览版。下周，ChatGPT Plus用户也将获得该功能。