訂閱
糾錯
加入自媒體

NeurIPS 2025 最佳論文詳解:你完全也能看懂

2025-12-08 13:54
vehicle公眾號
關注

機器學習領域的“奧運會” NeurIPS剛剛落下帷幕,你是否好奇研究人員真正認為哪些人工智能突破至關重要?NeurIPS,即神經(jīng)信息處理系統(tǒng)大會,堪稱人工智能研究領域的奧斯卡。每年12月,數(shù)千名研究人員齊聚一堂,分享最前沿的研究成果。論文被NeurIPS接收已屬不易,而榮獲最佳論文獎?那足以決定職業(yè)生涯的成敗。

NeurIPS剛剛評選出年度最佳人工智能研究,今年的七位獲獎者探討了從人工智能模型為何聽起來千篇一律到如何構建真正深度神經(jīng)網(wǎng)絡等各種問題。

但是,這些論文貌似離我們很遠,而且對于我們普通人來講,似乎高深莫測,無法看懂。所以,本文基于論文的解讀,讓你完全可以看懂今年NeurIPS 2025 的最佳論文。

1.獲獎者論文:

冠軍論文:人工蜂巢思維(華盛頓大學、卡內(nèi)基梅隆大學、艾倫研究所):

還記得大家說過只要對模型改變問話語言或使用多個模型就能獲得多樣化的AI輸出嗎?錯!

該團隊測試了 70 多個語言模型,發(fā)現(xiàn)了一些令人不安的事情:它們都產(chǎn)生了驚人相似的響應。

如果你問 ChatGPT、Claude 和 Gemini ,甚至國內(nèi)的Deepseek、豆包、千問同一個創(chuàng)意問題,你會得到一些圍繞同一主題的不同版本。

更糟糕的是,單個模型會不斷重復自身。研究人員稱之為“人工智能群體思維效應”;人工智能讓一切聽起來都一樣。

重要性:如果你一直在使用人工智能進行頭腦風暴,并且感覺給出的建議越來越重復,那并非你的錯覺。這個問題比任何人想象的都要復雜,特別是問DeepSeek,你再看看他的思維鏈內(nèi)容,你就會更有感受。解決它需要對模型的訓練和評估方式進行根本性的變革。

面向大型語言模型的門控注意力機制(來自阿里巴巴Qwen團隊):

阿里巴巴千問研究團隊發(fā)現(xiàn),在注意力機制之后添加一個“門”(可以把它想象成一個智能過濾器)——一個小小的調(diào)整——就能讓 LLM 的性能持續(xù)提升。

他們針對 30 多個變體進行了測試,模型參數(shù)高達 150 億。

最棒的是,它已經(jīng)在 Qwen3-Next 中發(fā)布了,而且代碼是開源的。

NeurIPS 評委表示,這將“被廣泛采用”,用學術術語來說就是“每個人都會使用它”。

重要性:預計在未來 6-12 個月內(nèi),這項技術將應用于 GPT-5、Gemini 2.0 和其他下一代模型。您的 AI 對話將更加連貫,尤其是在較長的聊天中。

用于自監(jiān)督強化學習的 1000 層網(wǎng)絡(來自巴黎文理研究大學):

大多數(shù)強化學習模型使用 2-5 層。這些研究人員提出:如果我們深入更多層呢?

他們構建了多達 1024 層的網(wǎng)絡,讓機器人學習在沒有任何人為指導的情況下實現(xiàn)目標。

結果:性能提升 2-50 倍。事實證明,強化學習可以像語言模型一樣擴展——你只需要有勇氣去嘗試。

重要性:這為自動駕駛和機器人這類 Physical AI 最終在能力上趕上當前的語言模型打開了大門。我們可以預見,未來將出現(xiàn)能力更強的機器人和人工智能代理,它們無需人類逐步指導即可學習復雜任務。

為什么擴散模型Diffusion Models無法記憶(來自普林斯頓大學,華沙理工大學):

人工智能圖像生成器使用數(shù)百萬張圖像進行訓練。那么,為什么它們不能直接生成完全相同的副本呢?這篇論文從數(shù)學角度解釋了這個問題。

訓練過程中有兩個時間尺度:早期階段,模型學習創(chuàng)建良好的圖像;后期階段,模型開始記憶。

關鍵在于,記憶階段隨著數(shù)據(jù)集大小線性增長,從而為在過擬合發(fā)生之前停止訓練創(chuàng)造了一個最佳時機。

這就像這個模型內(nèi)置了一個鬧鐘,提醒你“在作弊之前停止學習”。

重要性:這解釋了為什么 Midjourney、DALL-E 和 Stable Diffusion 能夠生成全新的圖像,而不是復制訓練數(shù)據(jù)。理解這種動態(tài)過程將有助于構建更好、更安全的生成模型。

亞軍論文:

強化學習真的能激勵推理嗎(來自leap lab 清華,上海交大):

劇透:其實不然。該團隊測試了強化學習訓練是否真的在邏輯學習模型中創(chuàng)造了新的推理能力,還是僅僅優(yōu)化了基礎模型已經(jīng)知道的路徑。

答案:基礎模型的上限就是訓練后模型的上限。強化學習使模型更有效地找到好的答案,但并沒有擴展它們從根本上可以推理的內(nèi)容。

這就像教別人應試技巧一樣——他們考試成績會更好,但他們實際上并沒有學到新知識。

重要性:這挑戰(zhàn)了目前圍繞強化學習高階思維(RLHF)和推理模型的炒作。如果你想要真正更智能的人工智能,你需要更好的基礎模型和訓練數(shù)據(jù),而不僅僅是對現(xiàn)有模型進行更多的強化學習。

面向傳遞式在線學習的最優(yōu)錯誤界限(肯特,普渡,以色列理工,谷歌):

解決了一個存在了 30 年的理論問題,即當學習算法可以訪問未標記數(shù)據(jù)時,它會犯多少錯誤。數(shù)學原理很復雜,

但結論是:未標記數(shù)據(jù)比標準學習速度提升了二次方倍(平方根改進)。那在理論上是一個巨大的勝利。

重要性:這為使用大量未標記數(shù)據(jù)提供了理論支持,而這正是當今基礎模型的動力來源。

疊加原理可實現(xiàn)穩(wěn)健的神經(jīng)縮放(MIT麻省理工):

終于解釋了為什么更大的模型效果更好。秘訣在于“疊加”,即模型能夠通過巧妙地打包信息來表示比其維度更多的特征。

當模型強烈地表現(xiàn)出這種特性時,損失與數(shù)據(jù)規(guī)模成反比,幾乎適用于任何數(shù)據(jù)分布。

這印證了金吉拉體型比例定律,并解釋了為什么“越大越好”的趨勢能夠持續(xù)下去。

重要性:這解釋了為什么企業(yè)不斷構建更大的模型,并驗證了金吉拉規(guī)模定律。預計“越大越好”的趨勢在可預見的未來仍將持續(xù)。

2.NeurIPS 大會上還有:谷歌的內(nèi)存突破

雖然這些獎項占據(jù)了各大媒體的頭條,但谷歌悄悄發(fā)布了可能改變游戲規(guī)則的研究成果:Titans 和 MIRAS,這兩種架構賦予了人工智能模型真正的長期記憶。

現(xiàn)有模型在處理上下文長度時會遇到瓶頸。即使你給 Claude 或 GPT 輸入數(shù)百萬個詞元,它們也很難真正記住并有效地利用所有這些信息。還有就是自動駕駛的場景中,其實當前的輔助駕駛的響應都是即時響應,并無法回顧和推理更長的時間,例如15s以上,因為需要更多的內(nèi)存和算力來應對。

Titans 通過“驚喜度量”解決了這個問題——本質上就是教會人工智能像人類一樣記憶。

它的工作原理是這樣的:人類很容易忘記日常瑣事,卻能記住令人驚訝的事件。

Titans 也是如此。在處理文本時,它會不斷地問自己:“這條新信息與我已知的信息相比,是否令人驚訝?” 如果驚訝程度很高,就永久存儲;如果驚訝程度不高,就跳過。

例如:如果你正在閱讀一份財務報告,突然看到一句關于香蕉皮的話,這種巨大的意外信號會告訴模型“這很奇怪也很重要——記住它”。

但如果報告第十次提到“季度收益”,模型就會說“知道了,繼續(xù)往下看”。

結果令人驚嘆:Titans 能夠處理超過 200 萬個詞元上下文,并且在參數(shù)量遠少于 GPT-4 的情況下,在超長上下文任務上也表現(xiàn)出色。它兼具循環(huán)模型的速度和 Transformer 模型的準確性。

重要性:目前的AI經(jīng)常會忘記上下文。讓Claude分析一份200頁的文檔,并引用第5頁的內(nèi)容?它很可能找不到。而泰坦架構可以讓AI真正記住你討論過的所有內(nèi)容、你分享過的每一份文檔、你提到的每一個偏好——即使上下文跨越數(shù)百萬字。

未來 6 到 12 個月內(nèi),預計這種方法的各種變體將開始出現(xiàn)在生產(chǎn)環(huán)境中。谷歌已經(jīng)在使用“Hope”進行開發(fā),這是一個可以自我修改并優(yōu)化自身內(nèi)存的版本。

3.至于最佳論文……

門控注意力機制已投入生產(chǎn)使用。群體思維問題將促使研究人員開發(fā)出能夠刻意實現(xiàn)輸出多樣化的模型。而強化學習的深度擴展有望催生新一代功能強大的自動駕駛、機器人和Physical AI智能體。

如果你每天都在使用人工智能工具,請留意那些明確宣傳輸出多樣性或更深層次推理能力的模型;這些論文只是為未來的發(fā)展方向奠定了基礎。

參考資料以及圖片

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) - UOW /CMU等

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free - Qwen等

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Superposition Yields Robust Neural Scaling

Optimal Mistake Bounds for Transductive Online Learning

*未經(jīng)準許嚴禁轉載和摘錄-獲取本文參考資料方式:加入我們的知識星球可以下載公眾號海量參考資料包含以上參考資料。

>>>>

       原文標題 : NeurIPS 2025 最佳論文詳解:你完全也能看懂

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號