大陆DeepSeek运算模型横空出世,节省效能让成本变成1/10,颠覆了高阶AI晶片产业。精神科医师沈政男指出,DeepSeek节省晶片,是因为少了一个价值函数的训练步骤。他强调,AI的最大弱点就是没办法自我评价,DeepSeek就是藉由自我评价来调整学习步骤,比较接近人脑的学习策略。
沈政男2日发文表示,附图是从DeepSeek团队发表的论文撷取出来,可以看到为什么他们的模型比较节省晶片,就因为少了一个步骤,也就是价值函数的训练。AI的原理,是让机器学会做某件事,而前提就是给予训练,然后从错误中找到最好的工作策略。比如蒙地卡罗方法就是AlphaGo使用的训练方法,原理是让电脑乱下棋步,然后推演出胜算最高的一步。常用优化的策略是马可夫链,也就是根据前一步来推算下一步最佳方案。
沈政男提到,再来就是利用价值函数来估计,而形成了所谓一般优势估计(Generalized Advantage Estimation),而这也就是Open AI使用的PPO,趋近策略优化,最重要的步骤之一。它的缺点是需要大量晶片运算来做价值函数的训练,也就是对于机器的输出值,每一个都要给予评价,就好像老师必须对班上每一个同学的每一次考试,都给予个别考核一样。
沈政男指出,DeepSeek就不一样了!它不使用价值函数,不需要额外聘请评估的老师,而是从同学们的群体输出值里,藉由相互比较,来得出最好的策略。也就是,某一个教学方法如果比较好,那么同学的分数普遍都拉得比较高,是不是每一个同学跟平均值的差距就会变小?这样了解吗?
沈政男直言,中国大陆的AI科技,早就是世界第二强了,接下来就是挑战美国。AI基本上是大国游戏,就好像制药工业与汽车产业一样,台湾玩不起。比起制药工业与汽车产业,中国大陆追赶美国的速度又更快一些,原因是纯粹就是脑力的对决,不像制药与造车需要技术传统与硬体基础。对于AI,距离智慧两个字,还有很长的路要走,基本上就还只是一种运算。AI的最大弱点就是没办法自我评价,需要人类给予指点。
沈政男强调,DeepSeek的特点之一,就是藉由自我评价来调整学习步骤,比较接近人脑的学习策略。
发表意见
中时新闻网对留言系统使用者发布的文字、图片或檔案保有片面修改或移除的权利。当使用者使用本网站留言服务时,表示已详细阅读并完全了解,且同意配合下述规定:
违反上述规定者,中时新闻网有权删除留言,或者直接封锁帐号!请使用者在发言前,务必先阅读留言板规则,谢谢配合。