大廠搞token排行榜 結果摸魚的人排第一
美劇《火線》曾描繪一個荒謬現實:警方為美化犯罪data ,把重罪降級,讓強暴案從報表上消失。街頭槍聲未歇,長官卻在慶祝治安改善。諷刺的是,類似劇本正出現在2026年的中國科技業——只不過這次被操弄的不是犯罪率,而是AI的token消耗量。只要你會刷token ,摸魚也能變模範員工。
近期小紅書熱議一則帖文,一名自稱在BAT大廠(非百度)的工程師坦言,部門啟動token消耗ranking ,未來轉正、績效、晉升都將參照此指標,使用量過低者甚至面臨淘汰。他三月高居榜首,還被主管點名分享「高效使用AI」經驗。但他沒說的是,過半token用於整理個人筆記發文。這不是個案。另一名朋友在公司三年,近日也被要求在日報中填寫「今日AI使用時數」與「產能提升估計」,逼得他不得不反覆開啟AI工具,思考如何「合理」刷量。
表面上,token消耗量看似合理——它是AI處理資訊的最小unit ,如同AI世界的字數或貨幣。每輪對話消耗的token包含輸入、推理與輸出,理論上使用越多,互動越頻繁。英偉達執行長黃仁勳甚至主張,工程師的token預算應達薪資一半,若年薪50萬美元者僅花5000美元在token上,他將「deeply alarmed 」。這種「用得多=產出高」的邏輯,也催生了矽谷新詞「Tokenmaxxing」——極致追求token使用量。OpenAI工程師曾單週處理2100億token,Anthropic用戶一個月燒掉15萬美元在Claude Code上。
但問題在於,token消耗量極易造假。第一招是「上下文滾雪球」:AI每次回應都會重讀全部歷史,對話越長,單輪消耗越高。持續追問五十輪,光重讀就可達百萬token,還能辯稱是「deep thinking 」。第二招是啟動數十個AI代理(Agent)自動運作,每步驟皆消耗token,一夜之間就能衝上排行榜。第三招更簡單:上傳十萬行程式碼倉庫,請AI「分析一下」,努力的模樣唾手可得。這些手法不難想像,管理層也不可能不知情。
經濟學中的「古德哈特定律」(Goodhart's Law)早已預言:當一個指標成為目標,它便不再有效。英國曾考核急診等候不超四小時,結果醫院讓救護車停在門口不讓病人下車——因計時從入門開始。同樣地,token排行榜已成AI時代的功德箱:佛祖看誠意,領導看次數。真正值得追問的是:為何明知會被操弄,此指標仍被推行?背後是AI時代自上而下的焦慮。董事會問CEO「AI戰略為何」,CEO問副總「落地進度」,副總問總監「給我數據證明大家有用」。當真實貢獻難以衡量,管理者只能抓住「可量化」的替代指標。
強制推動AI有其正當性,正如福特當年強推流水線,雖遭工人抵制,最終仍提升整體效率。但兩者關鍵差異在於:流水線是底層生產力變革,工人別無選擇;AI卻仍由個人決定是否使用。若AI真能增效,使用者自然勝出,無需排行榜逼迫。與其關注token消耗,不如關注問題解決的impact 。寫作的價值不在字數,思考的價值不在翻頁數,AI的價值也不在燒了多少token。別讓管理的焦慮,把人的價值一起燒盡。街頭槍聲不會因數據美化而消失,公司效率也不會因token狂燒而自動提升。
我們公司上個月開始要求填AI使用時數,結果大家現在都開著AI聊天機器人自問自答,根本是現代版的亮燈加班
這不就是變相鼓勵浪費資源?cost 成本誰來付?最後还不是公司買單
管理層想看到「有在用」的跡象,但又無法評估實際效益,只好抓個數字湊數,典型的表面工夫
把十萬行程式碼丟給AI分析,這動作本身就有風險,萬一security 安全漏洞被外洩怎麼辦
Tokenmaxxing根本是KPI文化的數位延伸,重點不是創新,而是「看起來很忙」
強推AI可以理解,但指標設計要能反映真實產出,否則只會催生更多形式主義behavior 行為