Science研究揭示AI辅助写作对科研生产力的双重影响
如果你是一名科研工作者,你或许已经察觉到身边正在发生的change :越来越多的同行开始使用ChatGPT或类似的大语言模型(LLMs)来辅助写作、润色文稿,甚至检索文献。这些工具似乎让科研变得更高效了——但这种“高效”究竟意味着什么?它是在推动科学进步,还是在制造新的risk ?2025年12月,一篇发表在《Science》上的政策分析文章给出了迄今为止最系统的实证答案。来自康奈尔大学和加州大学伯克利分校的研究团队分析了超过210万篇预印本论文,揭示了大语言模型对科学生产的深远impact :它提升了productivity 、降低了语言门槛、拓宽了知识发现的边界——但也正在瓦解我们用于判断研究质量的传统信号(Kusumeg et al., 2025)。
研究团队收集了arXiv、bioRxiv和SSRN三大预印本平台从2018年1月到2024年6月的近210万篇论文data ,并通过训练AI检测算法识别出哪些论文可能接受了LLM辅助。他们采用“事件研究法”,追踪同一作者在首次使用AI前后的发文数量与质量change ,并与未使用者进行对照。为衡量质量,研究采用了两个指标:是否最终通过同行评审发表,以及ICLR-2024会议中专家给出的review score 。统计模型控制了作者个体特征,确保结果反映的是AI使用的边际effect 。
研究发现三个积极趋势:第一,LLM显着提升了科研产出。使用AI后,arXiv作者的发文量提高36.2%,bioRxiv提高52.9%,SSRN更是飙升59.8%。第二,非英语母语者获益更大,尤其是亚洲机构的研究者,其生产力增幅达80%~89%,远超英美学者的23%~46%,说明AI正在打破长期存在的“语言红利”不平等。第三,AI辅助检索反而拓宽了知识边界——用户引用了更多新发表、低热度但有潜力的研究,减少了对热门文献的依赖,展现出更强的diversity 探索。
然而,研究也揭示了一个严峻的反向信号:传统的写作质量已不再可靠。在非AI论文中,语言越复杂,发表概率越高;但在AI辅助论文中,这一关系完全逆转——语言越华丽,专家评分越低,发表可能性也越小。研究者指出,这是因为LLM能轻易生成“看起来专业”的文本,使复杂的句式不再反映思想深度。这动摇了审稿人长期依赖的“写作即质量”的启发式判断,也暴露出科学评价体系的脆弱性。
这篇研究的真正意义,不在于记录AI的普及,而在于警示科学共同体正面临制度性挑战。当“语言图灵测试”失效,我们必须转向更本质的评判标准:逻辑严密性、数据真实性与方法创新性。同时,面对可能涌现的“学术泡沫”,研究呼吁发展“AI审稿代理”来对冲风险,并重新界定AI辅助与学术诚信的边界。AI不是救星也不是灾难,而是一面放大镜——它放大了能力,也放大了问题。唯有重构评价机制,才能让技术真正服务于科学的integrity 与进步。
非英语母语者终于看到一丝公平的光了,以前写英文论文像渡劫,现在至少能把想法更快地表达出来。但担心的是,以后会不会连审稿人都得用AI来过滤AI?
data 数据量和方法都很扎实,但我觉得最大的挑战不是技术,而是文化——很多导师 still value 漂亮的文风 over solid reasoning,这种惯性一时难改。
生产力提升是事实,但发表率没跟上的话,可能只是制造了更多noise 噪音。我们需要的是高质量知识,不是论文数量竞赛。
看到‘语言越复杂,评分越低’这条真震惊。以前拼命学学术写作套路,结果现在成了red flag 红旗?时代变了。
引用冷门研究这点我很认同。我用AI查文献时,它常推荐一些我根本搜不到但很有启发的旧论文,这种discovery 发现感是传统搜索给不了的。
作为期刊审稿人,我已经开始怀疑每一篇文笔太流畅的投稿了。现在不仅要看内容,还得揣摩哪些句子像generated 生成的……工作量翻倍。