标题:
OpenAI推出o3系列模型:大模型技术路线的革命性突破,AI通用智能的关键一步
内容:
2024年12月21日,OpenAI在其为期12天的发布会活动最后一天,正式发布了备受期待的o3系列模型。在AI发展似乎步入平缓期的当下,OpenAI此次的突破被公认为“改变游戏规则”的关键一步,标志着人工智能向通用智能(AGI)迈出了重要的一步。
在被誉为评估通用智能的ARC-AGI测试中,o3模型创下了新纪录:在低算力配置下便以75.7%的得分登顶公共排行榜,高算力版本更是达到了惊人的87.5%的得分,这一成绩远超其前代o1系列模型,后者在同一测试中的得分仅为25%。
Keras之父、ARC-AGI测试发起人François Chollet对此评价道:“这是一个令人惊讶且重要的阶跃式提升,展示了GPT系列模型前所未有的新型任务适应能力。随着o3的出现,关于人工智能能力的所有既有认知都需要重新评估。”
然而,尽管在ARC-AGI测试中表现出色,这并不意味着o3已经达到了AGI水平。它仍会在一些非常简单的任务中犯错,缺乏与现实世界的直接交互能力,也无法像人类那样通过与现实世界的直接互动来学习和适应。
此外,Chollet还表示,在即将发布的新版测试(ARC-AGI-2)中,o3的表现预计会大幅下降,而人类仍能保持高分。
o3模型由o3和o3-mini两部分组成。o3是一个非常强大的模型,在编码、数学以及ARC-AGI基准测试等多个基准上超过了OpenAI此前的o1模型。o3-mini是o3的更经济高效且性能导向的版本,预计将于1月底左右发布。
ARC-AGI(人工通用智能评估基准)测试是由Keras之父François Chollet发起,旨在评估AI系统在面对未见过的新任务时的适应能力。o3系列在这一测试中取得了显著的成绩,展现了其类人的任务适应能力。
Chollet认为,o3的成功并非依靠简单的算力堆砌,其核心创新在于从根本上改变了AI处理信息的方式。o3开创了全新的方法,如在token空间内进行自然语言程序搜索和执行、使用类似AlphaZero的蒙特卡洛树搜索方法,并通过评估器模型引导搜索过程。
尽管o3取得了突破性进展,但称其为AGI还为时过早。Chollet指出,o3的局限包括技术、性能和效率三个层面的问题。
总的来说,o3的出现无疑是一个里程碑式的突破。对于整个AI行业来说,o3的价值可能在于,它证明了AI进步不仅仅依赖于简单地扩大模型规模和增加训练数据,更关键的是架构创新,这种方法为AI的发展开辟了新的方向。
Chollet表示:“实际上,o3代表了一种深度学习引导的程序搜索形式。同时,由于推理预算的可变性,效率(如计算成本)已成为评估AI性能时的必要指标。”