91九色字幕资源网,日韩快播新片,色色亚洲网站

金沙電玩app 剛剛，Anthropic內部考題開源！年薪百萬工程師，被AI秒了

發布日期：2026-01-25 12:46 點擊次數：67

金沙電玩app 剛剛，Anthropic內部考題開源！年薪百萬工程師，被AI秒了

【新智元導讀】史上最強模型 Claude Opus 4.5 發布后，全面碾壓了人類頂尖工程師，逼得 Anthropic 不得不被迫放棄招聘筆試！現在，內部考題已經全面開源了。

就在剛剛，人類程序員最后的堡壘崩塌了。

曾經，Anthropic 為自己應聘者準備了一份出了名困難的考題，讓他們在家完成。

這份考題一直效果不錯，直到 Claude Opus 4.5 的出現。

有了這個史上最強模型的加持，人類應聘者輕松做出各種考題，因而這份考卷也就失效了。

今天，因為無法再通過傳統技術筆試篩選人才，Anthropic 被迫開源了舊版試題，并且向全世界求助：有沒有辦法，讓我們真正測試出人類的編程能力？

作為告別，Anthropic 選擇將把最初版本的測試題發布，作為一個面向大眾的公開挑戰。

地址：https://github.com/anthropics/original_performance_takehome

在這個測試題中，候選人需要逐步進行多核并行優化、SIMD 向量化、VLIW 指令打包優化，并用 Perfetto trace 做分析。

上下滑動查看

他們依然相信：在無限時間下，最強人類依然能超越 Claude 的極限。

同時他們強調：如果哪個人類能擊敗 Claude Opus 4.5，請務必聯系 Anthropic！

剛剛，Claude Opus 4.5 把我們的筆試題秒了

在 AI 時代，究竟該如何進行軟件工程師的面試？

Anthropic 在這篇博客里，進行了細致的探索。

博客地址：https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道，曾經 Anthropic 有一套完美的篩選考題。

可隨著 AI 能力的指數級提升，今天還能完美區分菜鳥和大神的試題，明天就可能被新模型秒殺，這套考題就瞬間失去意義了！

比如，自 2024 年初，他們的性能工程團隊一直在用下面這套題：要求候選人為一個模擬加速器優化代碼。

這套題在 1000 多名面試者中，篩出了幾十個最頂尖的工程師。正是這些人，點亮了 Anthropic 的 Trainium 集群，發布了從 Claude 3 Opus 至今的每一個模型。

結果，每個新版本的 Claude，都在讓這套題失效！

同樣的時間里，Claude Opus 4 已經優于大多數人類申請者，Anthropic 勉強還能篩出最強的人類。

結果 Claude Opus 4.5 的橫空出世，直接追平了最強人類天花板！

如果給無限的時間，人類或許還能險勝，但在面試時間限制下，已經根本無法區分誰是頂尖候選人，誰是最強模型了。

為此，Anthropic 已經把這套題迭代了三個版本，甚至越來越「劍走偏鋒」。

這套測試的誕生

2023 年 11 月，Anthropic 正準備發布 Claude Opus 3。

新的 TPU 和 GPU 集群就位，樂魚體育官方網站大 Trainium 集群即將上線，公司在算力上的投入是過去的數倍，但性能工程師卻嚴重緊缺。

為此，Anthropic 公司績效優化團隊負責人 Tristan Hume 在 Twitter 上發帖求賢，雖然收到了大量簡歷，但標準的面試流程太耗時了。

于是，他花了兩個星期設計了一個 Take-home 測試，從而精準識別出真正硬核的候選人。

設計初衷

為了做出一個好玩的、能讓候選人興奮的東西，并且能以「高分辨率」掃描他們的技術實力，Tristan Hume 做了精心設計。

相比現場面試，這種形式在評估性能工程技能上更有優勢：

時間更充裕：4 小時（后改為 2 小時）的窗口比 50 分鐘的面試更能反映真實工作狀態。

環境更真實：沒有面試官盯著，候選人在自己的編輯器里干活，零干擾。

深度考察：性能優化需要理解系統、造工具，這在短面試里很難體現。

兼容 AI 輔助：明確允許使用 AI。因為對于長線難題，AI 很難直接給出完美解。

另外，Tristan 還構建了一個 Python 模擬器，模擬了一個具有 TPU 特征的假加速器。

候選人需要優化在這臺機器上運行的代碼，并通過一個支持熱重載的 Perfetto trace 來觀察執行過程，該 trace 會展示每一條指令，效果類似公司在 Trainium 上使用的工具鏈。

這臺模擬機器包含了一些讓加速器優化變得很有挑戰性的特性，包括：

手動管理的 scratchpad 內存（不同于 CPU，加速器通常需要顯式進行內存管理）

VLIW 架構（每個周期可以并行運行多個執行單元，金沙電玩城需要高效地進行指令打包）

SIMD（一條指令同時對多個數據元素進行向量化運算）

多核架構（需要將工作負載合理地分配到多個核心上）

這些硬核要素，都讓底層優化變得更有趣。

這個任務是一個并行的樹遍歷問題，刻意設計成不帶深度學習背景的形式，因為大多數性能工程師并沒有做過深度學習工作，具體知識可以在入職后再學習。

該問題的靈感來自于無分支的 SIMD 決策樹推理——這是一個經典的機器學習優化挑戰。

候選人一開始拿到的是一個完全串行的實現，需要逐步挖掘并利用這臺機器的并行能力。

早期戰果：它曾完美工作

最初的效果非常好。

一位得分遙遙領先的候選人入職后，立即開始優化算子，并解決了一個阻礙發布的編譯器 Bug。

在之后的一年半里，這套題幫忙組建了核心團隊，甚至發掘了幾位本科剛畢業但實力超群的天才。

許多候選人甚至因為覺得太好玩，在超時后還在繼續優化。最強的一份提交，甚至包含了一個完整的迷你優化編譯器。

第一輪崩潰：Claude Opus 4 進場

到了 25 年 5 月，Claude 3.7 Sonnet 已經進化到讓一半的候選人只要把題丟給它，就能拿高分。

隨后，Tristan 用 Claude Opus 4 的預發布版本試了一下。結果令人絕望：在 4 小時內，它的代碼比幾乎所有人類都要好。

這并非他第一次被 Claude 擊敗。早在 2023 年，Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準備的現場面試題。

對于這次崩潰，Tristan 做了緊急修復：既然問題深度不夠，那就加碼。他重寫了啟動代碼，增加了機器特性的復雜度，并把時間縮短到 2 小時。

第二版側重考察巧妙的優化洞察力，而非單純的代碼量。這招奏效了——但是，也只撐了幾個月而已。

第二輪崩潰：Claude Opus 4.5 的降維打擊

后來，當 Tristan 拿到 Claude Opus 4.5 的預發布版本時，他眼睜睜看著 Claude Code 跑了 2 小時。它像個老練的工程師，先解決了初始瓶頸，搞定了所有常規微優化。

{jz:field.toptypename/}

然后它卡住了，遇到了一個看似不可逾越的內存帶寬瓶頸——大多數人類也卡在這里。但當它提示「理論極限」時，它思考片刻，竟然找到了那個只有極少數人類能發現的巧妙技巧。

最終，它的得分與人類歷史最高紀錄持平（而那個人類考生還是在重度依賴 Claude 4 的情況下完成的）。

更可怕的是，Anthropic 在內部的「測試時計算」框架中驗證發現，它不僅能在 2 小時內擊敗人類，甚至隨著思考時間的增加，分數還在不斷上漲。

大麻煩來了：即將發布的模型，將徹底摧毀公司招聘這個模型開發者的測試題。所以，他們只能采用這個策略——把工作直接外包給 Claude Code。

艱難的抉擇

有人建議禁止 AI，但 Tristan 并未采納。因為在真實工作中，人類就是需要和 AI 協作。

也有人建議提高及格線，但這會導致候選人淪為 AI 的看客，甚至因跟不上 AI 的思路而不知所措。

性能工程師的真實工作其實更多是艱難的調試、系統設計、分析，以及讓 AI 生成的代碼更優雅。這些很難通過客觀測試來考察。

到底該怎樣設計一個「像真實工作」的面試題？這個任務從未如此艱難。

嘗試 1：換個題型？被秒殺

首先，Tristan 試圖設計一個更難的內核優化問題：2D TPU 寄存器上的高效數據轉置，且要避免 Bank 沖突。這是一個非常棘手的真實難題。

然而，Claude Opus 4.5 發現了一個他都沒想到的絕佳優化路徑：它重寫了整個計算過程，直接繞過了轉置的難點。即便他修補了漏洞，Claude Code 配合深度思考（Ultrathink）功能，依然能找出修復 Bank 沖突的技巧。

這讓他意識到，這類問題在已有代碼庫中太常見，Claude 已經擁有了海量的訓練數據「經驗」。

嘗試 2：變得更古怪

既然「真實」行不通，他只能追求「分布外（Out of distribution）」——即 AI 沒見過的數據。

他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集，迫使你用非傳統方式編程。

于是，他設計了一套全新的測試：使用微小且極度受限的指令集，目標是指令數最小化。沒有可視化工具，沒有調試器——候選人必須自己造工具（比如讓 AI 生成調試器）。

他把這套題丟給 Claude Opus 4.5，它終于失敗了。

這套新題效果不錯，分數與候選人的實際能力高度相關。但 Tristan 心中仍有遺憾：他們放棄了原版試題的「真實感」和「多樣性深度」。

但這或許就是代價。

「真實感」已經成為了奢侈品。原版試題之所以有效，因為它像以前的工作；現在的試題之所以有效，因為它模擬了一個全新的、AI 尚未涉足的領域。

公開向人類挑戰：原版測試題開源！

最終，Anthropic 宣布：將原版測試題開源。雖然 Claude 很強，但在無限時間下，人類專家的極限仍高于 AI。

目前，Claude 的戰績如下（周期數越低越好）：

2164：Claude Opus 4

1790：Claude Opus 4.5（隨手一跑）

1487：Claude Opus 4.5（11.5 小時超長思考后）

1363：Claude Opus 4.5（改進框架后）

Tristan 表示：如果你能優化到1487 周期以下，擊敗 Claude 的最佳表現，請一定聯系他們！

同時，他也歡迎大家通過常規流程申請，體驗一下人類要靠多久才能被攻破的「防 Claude」新考題。

三级亚洲欧美日本-三级一区二区三区-三级一区在线观看-三级在线观看成人-三级在线观看国产-三级在线观看免费-三级在线观看网站-三级在线看中文字-三级在线免费a免-三级在线免费观看