

【新智元導讀】史上最強模型 Claude Opus 4.5 發布后,全面碾壓了人類頂尖工程師,逼得 Anthropic 不得不被迫放棄招聘筆試!現在,內部考題已經全面開源了。
就在剛剛,人類程序員最后的堡壘崩塌了。
曾經,Anthropic 為自己應聘者準備了一份出了名困難的考題,讓他們在家完成。
這份考題一直效果不錯,直到 Claude Opus 4.5 的出現。
有了這個史上最強模型的加持,人類應聘者輕松做出各種考題,因而這份考卷也就失效了。
今天,因為無法再通過傳統技術筆試篩選人才,Anthropic 被迫開源了舊版試題,并且向全世界求助:有沒有辦法,讓我們真正測試出人類的編程能力?

作為告別,Anthropic 選擇將把最初版本的測試題發布,作為一個面向大眾的公開挑戰。

地址:https://github.com/anthropics/original_performance_takehome
在這個測試題中,候選人需要逐步進行多核并行優化、SIMD 向量化、VLIW 指令打包優化,并用 Perfetto trace 做分析。

上下滑動查看
他們依然相信:在無限時間下,最強人類依然能超越 Claude 的極限。
同時他們強調:如果哪個人類能擊敗 Claude Opus 4.5,請務必聯系 Anthropic!
剛剛,Claude Opus 4.5 把我們的筆試題秒了
在 AI 時代,究竟該如何進行軟件工程師的面試?
Anthropic 在這篇博客里,進行了細致的探索。

博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations
要知道,曾經 Anthropic 有一套完美的篩選考題。
可隨著 AI 能力的指數級提升,今天還能完美區分菜鳥和大神的試題,明天就可能被新模型秒殺,這套考題就瞬間失去意義了!
比如,自 2024 年初,他們的性能工程團隊一直在用下面這套題:要求候選人為一個模擬加速器優化代碼。
這套題在 1000 多名面試者中,篩出了幾十個最頂尖的工程師。正是這些人,點亮了 Anthropic 的 Trainium 集群,發布了從 Claude 3 Opus 至今的每一個模型。
結果,每個新版本的 Claude,都在讓這套題失效!
同樣的時間里,Claude Opus 4 已經優于大多數人類申請者,Anthropic 勉強還能篩出最強的人類。
結果 Claude Opus 4.5 的橫空出世,直接追平了最強人類天花板!
如果給無限的時間,人類或許還能險勝,但在面試時間限制下,已經根本無法區分誰是頂尖候選人,誰是最強模型了。
為此,Anthropic 已經把這套題迭代了三個版本,甚至越來越「劍走偏鋒」。
這套測試的誕生
2023 年 11 月,Anthropic 正準備發布 Claude Opus 3。
新的 TPU 和 GPU 集群就位,樂魚體育官方網站大 Trainium 集群即將上線,公司在算力上的投入是過去的數倍,但性能工程師卻嚴重緊缺。
為此,Anthropic 公司績效優化團隊負責人 Tristan Hume 在 Twitter 上發帖求賢,雖然收到了大量簡歷,但標準的面試流程太耗時了。

于是,他花了兩個星期設計了一個 Take-home 測試,從而精準識別出真正硬核的候選人。
設計初衷
為了做出一個好玩的、能讓候選人興奮的東西,并且能以「高分辨率」掃描他們的技術實力,Tristan Hume 做了精心設計。
相比現場面試,這種形式在評估性能工程技能上更有優勢:
時間更充裕:4 小時(后改為 2 小時)的窗口比 50 分鐘的面試更能反映真實工作狀態。
環境更真實:沒有面試官盯著,候選人在自己的編輯器里干活,零干擾。
深度考察:性能優化需要理解系統、造工具,這在短面試里很難體現。
兼容 AI 輔助:明確允許使用 AI。因為對于長線難題,AI 很難直接給出完美解。
另外,Tristan 還構建了一個 Python 模擬器,模擬了一個具有 TPU 特征的假加速器。
候選人需要優化在這臺機器上運行的代碼,并通過一個支持熱重載的 Perfetto trace 來觀察執行過程,該 trace 會展示每一條指令,效果類似公司在 Trainium 上使用的工具鏈。

這臺模擬機器包含了一些讓加速器優化變得很有挑戰性的特性,包括:
手動管理的 scratchpad 內存(不同于 CPU,加速器通常需要顯式進行內存管理)
VLIW 架構(每個周期可以并行運行多個執行單元,金沙電玩城需要高效地進行指令打包)
SIMD(一條指令同時對多個數據元素進行向量化運算)
多核架構(需要將工作負載合理地分配到多個核心上)
這些硬核要素,都讓底層優化變得更有趣。

這個任務是一個并行的樹遍歷問題,刻意設計成不帶深度學習背景的形式,因為大多數性能工程師并沒有做過深度學習工作,具體知識可以在入職后再學習。
該問題的靈感來自于無分支的 SIMD 決策樹推理——這是一個經典的機器學習優化挑戰。
候選人一開始拿到的是一個完全串行的實現,需要逐步挖掘并利用這臺機器的并行能力。
早期戰果:它曾完美工作
最初的效果非常好。
一位得分遙遙領先的候選人入職后,立即開始優化算子,并解決了一個阻礙發布的編譯器 Bug。
在之后的一年半里,這套題幫忙組建了核心團隊,甚至發掘了幾位本科剛畢業但實力超群的天才。
許多候選人甚至因為覺得太好玩,在超時后還在繼續優化。最強的一份提交,甚至包含了一個完整的迷你優化編譯器。
第一輪崩潰:Claude Opus 4 進場
到了 25 年 5 月,Claude 3.7 Sonnet 已經進化到讓一半的候選人只要把題丟給它,就能拿高分。
隨后,Tristan 用 Claude Opus 4 的預發布版本試了一下。結果令人絕望:在 4 小時內,它的代碼比幾乎所有人類都要好。
這并非他第一次被 Claude 擊敗。早在 2023 年,Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準備的現場面試題。
對于這次崩潰,Tristan 做了緊急修復:既然問題深度不夠,那就加碼。他重寫了啟動代碼,增加了機器特性的復雜度,并把時間縮短到 2 小時。
第二版側重考察巧妙的優化洞察力,而非單純的代碼量。這招奏效了——但是,也只撐了幾個月而已。
第二輪崩潰:Claude Opus 4.5 的降維打擊
后來,當 Tristan 拿到 Claude Opus 4.5 的預發布版本時,他眼睜睜看著 Claude Code 跑了 2 小時。它像個老練的工程師,先解決了初始瓶頸,搞定了所有常規微優化。
{jz:field.toptypename/}然后它卡住了,遇到了一個看似不可逾越的內存帶寬瓶頸——大多數人類也卡在這里。但當它提示「理論極限」時,它思考片刻,竟然找到了那個只有極少數人類能發現的巧妙技巧。
最終,它的得分與人類歷史最高紀錄持平(而那個人類考生還是在重度依賴 Claude 4 的情況下完成的)。

更可怕的是,Anthropic 在內部的「測試時計算」框架中驗證發現,它不僅能在 2 小時內擊敗人類,甚至隨著思考時間的增加,分數還在不斷上漲。
大麻煩來了:即將發布的模型,將徹底摧毀公司招聘這個模型開發者的測試題。所以,他們只能采用這個策略——把工作直接外包給 Claude Code。
艱難的抉擇
有人建議禁止 AI,但 Tristan 并未采納。因為在真實工作中,人類就是需要和 AI 協作。
也有人建議提高及格線,但這會導致候選人淪為 AI 的看客,甚至因跟不上 AI 的思路而不知所措。
性能工程師的真實工作其實更多是艱難的調試、系統設計、分析,以及讓 AI 生成的代碼更優雅。這些很難通過客觀測試來考察。
到底該怎樣設計一個「像真實工作」的面試題?這個任務從未如此艱難。
嘗試 1:換個題型?被秒殺
首先,Tristan 試圖設計一個更難的內核優化問題:2D TPU 寄存器上的高效數據轉置,且要避免 Bank 沖突。這是一個非常棘手的真實難題。


然而,Claude Opus 4.5 發現了一個他都沒想到的絕佳優化路徑:它重寫了整個計算過程,直接繞過了轉置的難點。即便他修補了漏洞,Claude Code 配合深度思考(Ultrathink)功能,依然能找出修復 Bank 沖突的技巧。
這讓他意識到,這類問題在已有代碼庫中太常見,Claude 已經擁有了海量的訓練數據「經驗」。
嘗試 2:變得更古怪
既然「真實」行不通,他只能追求「分布外(Out of distribution)」——即 AI 沒見過的數據。
他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集,迫使你用非傳統方式編程。



于是,他設計了一套全新的測試:使用微小且極度受限的指令集,目標是指令數最小化。沒有可視化工具,沒有調試器——候選人必須自己造工具(比如讓 AI 生成調試器)。
他把這套題丟給 Claude Opus 4.5,它終于失敗了。
這套新題效果不錯,分數與候選人的實際能力高度相關。但 Tristan 心中仍有遺憾:他們放棄了原版試題的「真實感」和「多樣性深度」。
但這或許就是代價。
「真實感」已經成為了奢侈品。原版試題之所以有效,因為它像以前的工作;現在的試題之所以有效,因為它模擬了一個全新的、AI 尚未涉足的領域。
公開向人類挑戰:原版測試題開源!
最終,Anthropic 宣布:將原版測試題開源。雖然 Claude 很強,但在無限時間下,人類專家的極限仍高于 AI。

目前,Claude 的戰績如下(周期數越低越好):
2164:Claude Opus 4
1790:Claude Opus 4.5(隨手一跑)
1487:Claude Opus 4.5(11.5 小時超長思考后)
1363:Claude Opus 4.5(改進框架后)
Tristan 表示:如果你能優化到1487 周期以下,擊敗 Claude 的最佳表現,請一定聯系他們!
同時,他也歡迎大家通過常規流程申請,體驗一下人類要靠多久才能被攻破的「防 Claude」新考題。

備案號: