大陸AI新創企業DeepSeek傳出將要發布DeepSeek-R2大模型的同時,英國《金融時報》則披露,DeepSeek-R2原定要在今年5月推出,但因為捨棄輝達改用華為昇騰晶片,不只導致研發進度大幅落後,也讓執行長梁文鋒大為不滿。
DeepSeek-R1今年初橫空出世,震撼矽谷乃至全球;DeepSeek原打算乘勝追擊,於今年5月推出DeepSeek-R2,但始終處於「只聞樓梯響」,也引發不少臆測。根據最新消息,DeepSeek-R2有望在8月15日至30日期間發布。
各界引頸期盼DeepSeek-R2之際,英國《金融時報》則引述知情人士說法指出,DeepSeek-R2之所以延遲發布,主要是因在研發初期採用華為晶片,導致進展不順遂,這也凸顯北京在替代美國技術方面的局限。
知情人士直言,不同於DeepSeek-R1使用輝達晶片,DeepSeek在大陸官方鼓勵與支持下,DeepSeek-R2一度改採華為昇騰晶片來訓練,但在訓練過程中持續遭遇技術問題,也讓DeepSeek決定重啟輝達晶片,僅在推論(inference)階段運用華為晶片。
據了解,華為也曾派遣工程團隊進駐DeepSeek,希望協助利用昇騰晶片開發R2模型;即便如此,DeepSeek依舊無法運用昇騰晶片完成一次成功的訓練運行。但DeepSeek仍與華為合作,力求讓該模型在推論階段能相容於昇騰晶片。
有業界人士分析,中國晶片相比輝達產品,仍存在穩定性問題、晶片間連線速度較慢、軟體水準較差等劣勢。
另一位熟悉內情的人士坦言,上述問題是導致DeepSeek-R2無法如期在5月發布的主因。梁文鋒對研發進度落後,也相當不滿,希望投入更多時間打造能鞏固公司AI領先地位的高階模型。
此外,外媒日前報導,大陸官方約談騰訊等企業,說明為何使用輝達晶片。澎湃新聞報導,騰訊13日召開業績交流會時,管理層人員表明,已經擁有足夠晶片來進行基礎模型的訓練,同時在推論晶片的供應渠道也具備多種選擇。
發表意見
中時新聞網對留言系統使用者發布的文字、圖片或檔案保有片面修改或移除的權利。當使用者使用本網站留言服務時,表示已詳細閱讀並完全了解,且同意配合下述規定:
違反上述規定者,中時新聞網有權刪除留言,或者直接封鎖帳號!請使用者在發言前,務必先閱讀留言板規則,謝謝配合。