亚洲精品v日韩精品,国内永久免费crm系统,18禁黄网站男男禁片免费观看,亚洲欧美日韩愉拍自拍

機床網
DeepSeek的“蒸餾模型”超越原創?美國要對“蒸餾技術”下手
2025-01-31 10:02:40

中國人工智能初創公司DeepSeek在過去一周成為硅谷熱議的對象,并觸發了本周一美國科技股“崩盤”。

1月29日,OpenAI最新稱,它發現有證據表明中國人工智能初創公司DeepSeek使用其專有模型來訓練自己的開源模型,并暗示這可能違反了OpenAI的服務條款。但OpenAI沒有進一步列舉哪些證據。OpenAI的服務條款規定,用戶不能“復制”其任何服務或“使用其輸出來開發與OpenAI競爭的模型”。

一種“常見技術”引發爭議

與Meta的Llama開源模型可免費使用不同,OpenAI的模型系統是封閉的,但個人用戶仍可付費接入其編程接口(API)獲取數據。截至發稿,DeepSeek尚未予以回應。

此前,美國政府稱正在組織專家緊急評估DeepSeek的技術及影響。美國白宮AI和加密貨幣事務負責人大衛·薩克斯(David Sacks)表示,未來幾個月,美國領先的人工智能公司將采取措施,試圖防止其他公司對“蒸餾技術”的獲取。

DeepSeek模型取得的技術突破已經引起美國總統特朗普的關注。特朗普周一表示,DeepSeek這款中國AI應用程序應該成為美國公司的“激勵因素”,他表示:“如果中國業界能夠開發出更便宜的人工智能技術,美國公司也會效仿。你不必花費數十億美元,而是花更少的錢,希望找到相同的解決方案。”

數據蒸餾是一種業內常見的技術做法,是指通過一系列算法和策略,將原始的、復雜的數據進行去噪、降維、提煉等操作,從而得到更為精煉、有用的數據。數據蒸餾的目的是將復雜模型的知識提煉到簡單模型。

據DeepSeek-V3的技術文檔,該模型使用數據蒸餾技術生成的高質量數據提升了訓練效率。通過已有的高質量模型來合成少量高質量數據,作為新模型的訓練數據,從而達到接近于在原始數據上訓練的效果。

“以前的大模型訓練相當于使用題海戰術,在大量的數據中訓練。而蒸餾就相當于讓在題海戰術里磨練過的優秀大模型充當新模型的老師,篩選出有效題目,再讓新的大模型訓練。”一位計算機研究人員這樣解釋。

不過此前有學者認為,蒸餾技術存在“隱性天花板”,它雖然可以提高模型訓練效率,但借此開發的模型無法超越基礎模型的能力,當考慮到需要將能力擴展到新領域或應對以前從未見過的挑戰時,這種限制就愈發成為問題;而且這種技術在多模態數據方面效果不好。

而DeepSeek的模型從某種程度上打破了這種業內普遍存在的觀念,其大模型的水平已經能與原始的基礎模型相提并論。這是引發美國擔憂的根本原因之一。就在1月28日凌晨,DeepSeek發布了最新視覺模型Janus-Pro,在多模態理解和文生圖指令遵從能力都收獲了顯著提升,并在多個基準上超越了DALL-E 3與Stable Diffusion。

英國倫敦大學學院(UCL)名譽教授和計算機科學家彼得·本特利曾在接受采訪時稱:“蒸餾技術對一些不具備OpenAI或谷歌這樣巨額研發預算的小型機構的研究進展將會產生重大影響。”

“蒸餾模型”何以超越原創?

一位美國科技巨頭公司AI相關項目開發人員對第一財經記者表示:“我并不認為蒸餾類似Llama這樣的開源模型有什么問題,尤其是像DeepSeek這樣在蒸餾后采取開源的模型,其實是有存在的合理性的,這樣能加速大模型的迭代,沒有必要所有的公司都從頭開始訓練大模型,這會導致資源的浪費。”

他還表示,全球很多AI初創公司也同樣使用多種大模型的蒸餾融合技術,形成了所謂的“多專家模型”(MoE),這樣的蒸餾模型是有可能在性能方面超越原始模型的,因為它有更強的泛化能力,得到的信息更加豐富,提升最終性能。

“這就好比你有一個團隊,里面有本科生、研究生、博士生、工業界初級工程師、資深工程師,當你遇到問題時,可以把不同難度的任務分派給不同的’專家’。這樣會以最高效的方式給出最匹配的答案。”他解釋道。

上述人士分析稱,關鍵的核心問題不在于DeepSeek蒸餾了其他大模型,而是為何同樣是在蒸餾開源模型的基礎上,DeepSeek能夠脫穎而出,以如此低廉的成本價格就能實現如此高的性能,并不是所有的公司投入這些資源后都能夠實現的。

他認為,DeepSeek完美平衡了多專家模型、訓練時長,預訓練、后訓練等工作,使得投入和產出達到一個最高效的值。“當你做得好到對別人有威脅了,總會有一些官司找上門。”他表示。

但也有AI研究人員指出,過度依賴蒸餾技術的“捷徑”,會導致研發人員為了快速取得成果而放棄對基礎模型的探索。上海交通大學副教授劉鵬飛曾在一篇學術報告中提到:“蒸餾技術為在數學推理任務中取得顯著性能提升提供了一條誘人的捷徑。雖然這種方法帶來了直接且可見的好處,但它掩蓋了一系列深刻的挑戰,無法提出根本性的解決方案。”

(本文來自第一財經)


轉載請標注來源158機床網
主站蜘蛛池模板: 普兰县| 平顶山市| 临安市| 石首市| 舒城县| 康乐县| 德安县| 荔波县| 阳新县| 体育| 平阳县| 会理县| 锡林郭勒盟| 神木县| 茂名市| 安顺市| 远安县| 大足县| 呼和浩特市| 赞皇县| 巍山| 镇远县| 平利县| 尖扎县| 长春市| 桃源县| 禄丰县| 古交市| 无极县| 武穴市| 北京市| 蛟河市| 涿鹿县| 历史| 千阳县| 凤翔县| 兴文县| 锡林郭勒盟| 澳门| 乐昌市| 贺州市|