Science研究揭示AI輔助寫作對科研生產力的雙面影響

科科學筆記 2026年4月18日下午5時閱讀約1分鐘

如果你是一名科研工作者，你大概已經注意到身邊的change ：越來越多的同行開始使用ChatGPT或類似的大語言模型（LLMs）來輔助寫作、潤飾文稿，甚至檢索文獻。這些工具似乎讓科研變得更高效了——但這種「高效」意味著什麼？它是在幫助科學進步，還是在製造新的risk ？2025年12月，一篇發表在Science上的政策分析文章給出了迄今為止最系統的實證答案。來自康乃爾大學和加州大學柏克萊分校的研究團隊分析了超過210萬篇預印本論文，揭示了大語言模型對科學生產的深遠影響：它提升了productivity 、降低了語言門檻、拓寬了知識發現的邊界——但也正在瓦解我們用於判斷研究品質的傳統signal （Kusumeg et al., 2025）。

研究團隊收集了三個全球最大的預印本資料庫中，從2018年1月到2024年6月的data ：arXiv（120萬篇）、bioRxiv（22.1萬篇）、SSRN（67.6萬篇）。他們訓練出一套AI偵測演算法，並採用「事件研究法」追蹤開始使用LLM的作者，與背景相似但未使用的作者進行長期對比。這種設計排除了許多干擾因素，能更清楚地看到「AI介入」帶來的impact 。為了衡量研究quality ，他們追蹤預印本是否最終在同儕審查期刊正式發表，並額外分析ICLR-2024會議的7243篇投稿與28000份review 意見作為驗證。

研究結果顯示出三個好消息。第一，LLM顯著提升了科研output ：在arXiv上，生產力提高了36.2%；在bioRxiv上提高了52.9%；在SSRN上更飆升了59.8%。第二，非英語母語者獲益更大——亞洲機構的亞洲姓名學者在bioRxiv和SSRN上的生產力增幅達80%~89%，遠超英美學者的23%~46%，顯示AI正在拉平學術fairness 。第三，LLM拓寬了知識發現的邊界：使用AI檢索的學者引用了更多書籍、較新論文與非熱門研究，提升了引用的diversity 。

然而，也有一個壞消息：傳統的「品質信號」正在失效。過去，寫作複雜度常被視為高品質的指標，但在AI時代，語言越華麗、越複雜的LLM輔助論文，其同儕審查得分反而越低，發表機率也越低。這是因為LLM能輕易為任何內容披上專業外衣，使「寫得好看」不再反映作者對主題的掌握程度。這對科學evaluation 體系構成嚴峻挑戰——長期以來，審稿人習慣將寫作品質作為研究品質的「捷徑式指標」，如今這條捷徑已失靈。

這篇研究的意義不僅在於描述現象，更在於提出制度性反思。當「語言圖靈測試」已死，我們需要新的評價錨點，回歸邏輯嚴密性、數據真實性與方法創新性。同時，面對可能湧入的「稿件洪流」，科學界需警惕「學術泡沫」的淹沒效應。研究者呼籲發展「AI審稿代理」，以AI對抗AI，並重新界定「AI輔助寫作」與「AI代替思考」之間的boundary ，確保學術誠信。

大語言模型不是科學的救星，也不是災難——它是一面放大鏡，既放大了我們的能力，也放大了我們的問題。它讓研究者寫得更快、發現得更廣、跨越語言障礙——但也讓「看起來專業」變得廉價。科學共同體正站在十字路口。我們需要的不是簡單地「禁止」或「擁抱」AI，而是重新設計評價體系、審稿流程與學術規範，使之適應一個人機協作的新時代。這不僅是技術問題，更是制度與culture 問題。

反應 6

實
實驗室老張

生產力提升近六成，聽起來很誘人，但我們實驗室已經開始收到太多「文筆極佳但內容空洞」的投稿，審稿負擔反而increased 了。
港
港大研究生

作為非英語母語者，我真心感謝AI降低語言barrier ，終於不用再花三週改語法才能投稿。但我也怕自己越來越依賴AI，失去獨立寫作能力。
期
期刊編輯L

「寫作品質=研究品質」這條捷徑確實行不通了。接下來恐怕得花更多時間檢視原始方法論和數據細節，人力根本不夠用。
科
科技觀察員

這不是AI的問題，是我們評價制度太懶。早該回歸內容本質，而不是靠華麗辭藻判斷價值。現在只是被逼著reform 而已。
清
清大博士生

有沒有人想過，也許未來論文該附帶「AI使用聲明」？就像利益衝突揭露一樣，讓讀者知道哪些段落是AI輔助生成的，增加transparency 。
哲
哲學系王老師

當「寫作」不再代表「思考」，我們還能怎麼定義「作者」？這已經不只是科研問題，而是關於創作與作者身份的哲學危機。

超聲穿顱，全腦讀寫：人腦與AI連結的終極答案浮現？

三星加速研發下一代高帶寬記憶體首批HBM4E將於5月生產

我國學者於心力衰竭發病機制與靶向治療獲新進展

首季廣東外貿首破2.5萬億：新產品領航，多市場抗險

持續整治網上金融資訊亂象