Science研究揭示AI輔助寫作對科研生產力的雙面影響
如果你是一名科研工作者,你大概已經注意到身邊的change :越來越多的同行開始使用ChatGPT或類似的大語言模型(LLMs)來輔助寫作、潤飾文稿,甚至檢索文獻。這些工具似乎讓科研變得更高效了——但這種「高效」意味著什麼?它是在幫助科學進步,還是在製造新的risk ?2025年12月,一篇發表在Science上的政策分析文章給出了迄今為止最系統的實證答案。來自康乃爾大學和加州大學柏克萊分校的研究團隊分析了超過210萬篇預印本論文,揭示了大語言模型對科學生產的深遠影響:它提升了productivity 、降低了語言門檻、拓寬了知識發現的邊界——但也正在瓦解我們用於判斷研究品質的傳統signal (Kusumeg et al., 2025)。
研究團隊收集了三個全球最大的預印本資料庫中,從2018年1月到2024年6月的data :arXiv(120萬篇)、bioRxiv(22.1萬篇)、SSRN(67.6萬篇)。他們訓練出一套AI偵測演算法,並採用「事件研究法」追蹤開始使用LLM的作者,與背景相似但未使用的作者進行長期對比。這種設計排除了許多干擾因素,能更清楚地看到「AI介入」帶來的impact 。為了衡量研究quality ,他們追蹤預印本是否最終在同儕審查期刊正式發表,並額外分析ICLR-2024會議的7243篇投稿與28000份review 意見作為驗證。
研究結果顯示出三個好消息。第一,LLM顯著提升了科研output :在arXiv上,生產力提高了36.2%;在bioRxiv上提高了52.9%;在SSRN上更飆升了59.8%。第二,非英語母語者獲益更大——亞洲機構的亞洲姓名學者在bioRxiv和SSRN上的生產力增幅達80%~89%,遠超英美學者的23%~46%,顯示AI正在拉平學術fairness 。第三,LLM拓寬了知識發現的邊界:使用AI檢索的學者引用了更多書籍、較新論文與非熱門研究,提升了引用的diversity 。
然而,也有一個壞消息:傳統的「品質信號」正在失效。過去,寫作複雜度常被視為高品質的指標,但在AI時代,語言越華麗、越複雜的LLM輔助論文,其同儕審查得分反而越低,發表機率也越低。這是因為LLM能輕易為任何內容披上專業外衣,使「寫得好看」不再反映作者對主題的掌握程度。這對科學evaluation 體系構成嚴峻挑戰——長期以來,審稿人習慣將寫作品質作為研究品質的「捷徑式指標」,如今這條捷徑已失靈。
這篇研究的意義不僅在於描述現象,更在於提出制度性反思。當「語言圖靈測試」已死,我們需要新的評價錨點,回歸邏輯嚴密性、數據真實性與方法創新性。同時,面對可能湧入的「稿件洪流」,科學界需警惕「學術泡沫」的淹沒效應。研究者呼籲發展「AI審稿代理」,以AI對抗AI,並重新界定「AI輔助寫作」與「AI代替思考」之間的boundary ,確保學術誠信。
大語言模型不是科學的救星,也不是災難——它是一面放大鏡,既放大了我們的能力,也放大了我們的問題。它讓研究者寫得更快、發現得更廣、跨越語言障礙——但也讓「看起來專業」變得廉價。科學共同體正站在十字路口。我們需要的不是簡單地「禁止」或「擁抱」AI,而是重新設計評價體系、審稿流程與學術規範,使之適應一個人機協作的新時代。這不僅是技術問題,更是制度與culture 問題。
生產力提升近六成,聽起來很誘人,但我們實驗室已經開始收到太多「文筆極佳但內容空洞」的投稿,審稿負擔反而increased 增加了。
作為非英語母語者,我真心感謝AI降低語言barrier 門檻,終於不用再花三週改語法才能投稿。但我也怕自己越來越依賴AI,失去獨立寫作能力。
「寫作品質=研究品質」這條捷徑確實行不通了。接下來恐怕得花更多時間檢視原始方法論和數據細節,人力根本不夠用。
這不是AI的問題,是我們評價制度太懶。早該回歸內容本質,而不是靠華麗辭藻判斷價值。現在只是被逼著reform 改革而已。
有沒有人想過,也許未來論文該附帶「AI使用聲明」?就像利益衝突揭露一樣,讓讀者知道哪些段落是AI輔助生成的,增加transparency 透明度。
當「寫作」不再代表「思考」,我們還能怎麼定義「作者」?這已經不只是科研問題,而是關於創作與作者身份的哲學危機。