2019~2030年全球算力规模
2019~2030年全球算力规模

今年1月下旬DeepSeek横空出世导致辉达(Nvidia)股价跳水,外传DeepSeek的R1模型在训练时所需的晶片更少,但辉达执行长黄仁勋26日接受CNBC专访时强调,新一代AI所需要的运算能力较旧模型高出100倍。

谈及DeepSeek是否需要更少的算力,黄仁勋以人类就学的过程解释AI模型的运作与开发的阶段。首先,AI像高中生学习大量的基础数学、语言,与其他科目一样,对人类知识进行基本理解,完成「预训练(pre-training)」阶段,为后续发展奠定基础。

在「后训练(post-training)」阶段,AI透过三种强化学习方式进步:从人类获得回馈(RLHF),进行大量练习(RLAIF),以及接受考验测试(RLVR)。他说,「现在基本上是AI教导AI如何变得更好,目前在这后训练过程中正在进行大量创新。」

黄仁勋引用的推理模型包括DeepSeek的R1、OpenAI的GPT-4和xAI的Grok 3等。他指出,新型AI须思考「如何最好地回答」问题,透过逐步拆解,甚至可能进行反思、提出数种版本,并挑出最好的答案提供给使用者,因此「过程中所需的算力,比ChatGPT首次发布时要多出100倍。」

黄仁勋表示,「突然之间,在这些强化学习、合成数据生成与推理等相关想法的全部结合下,导致算力需求窜升。」他认为,DeepSeek将需要更多晶片的推理模型推向普及化,「DeepSeek太棒了,因为它将世界一流的推理模型开源。」

黄仁勋也在法说会上称讚R1是一项「出色的创新」,并强调这些推理模型的出现对辉达来说都是好消息,因为意味着算力需求增加。辉达股价在今年1月27日重挫17%,写下2020年以来最大跌幅,至今仍未完全反弹。

部分人士认为,DeepSeek的问世可以突破美国对中国的晶片出口管制策略,黄仁勋认为开发人员可能会透过软体寻找绕过出口管制的方法。他说:「最终,软体会找到解决方法。」他表示,辉达在美国销售的GB200,其AI生成的速度较销往中国的阉割版快上60倍。

#训练 #辉达 #模型 #阶段 #黄仁勋