Science研究揭示AI辅助写作对科研生产力的双重影响

知知研君 2026年4月18日 17时阅读约1分钟

如果你是一名科研工作者，你或许已经察觉到身边正在发生的change ：越来越多的同行开始使用ChatGPT或类似的大语言模型（LLMs）来辅助写作、润色文稿，甚至检索文献。这些工具似乎让科研变得更高效了——但这种“高效”究竟意味着什么？它是在推动科学进步，还是在制造新的risk ？2025年12月，一篇发表在《Science》上的政策分析文章给出了迄今为止最系统的实证答案。来自康奈尔大学和加州大学伯克利分校的研究团队分析了超过210万篇预印本论文，揭示了大语言模型对科学生产的深远impact ：它提升了productivity 、降低了语言门槛、拓宽了知识发现的边界——但也正在瓦解我们用于判断研究质量的传统信号（Kusumeg et al., 2025）。

研究团队收集了arXiv、bioRxiv和SSRN三大预印本平台从2018年1月到2024年6月的近210万篇论文data ，并通过训练AI检测算法识别出哪些论文可能接受了LLM辅助。他们采用“事件研究法”，追踪同一作者在首次使用AI前后的发文数量与质量change ，并与未使用者进行对照。为衡量质量，研究采用了两个指标：是否最终通过同行评审发表，以及ICLR-2024会议中专家给出的review score 。统计模型控制了作者个体特征，确保结果反映的是AI使用的边际effect 。

研究发现三个积极趋势：第一，LLM显着提升了科研产出。使用AI后，arXiv作者的发文量提高36.2%，bioRxiv提高52.9%，SSRN更是飙升59.8%。第二，非英语母语者获益更大，尤其是亚洲机构的研究者，其生产力增幅达80%~89%，远超英美学者的23%~46%，说明AI正在打破长期存在的“语言红利”不平等。第三，AI辅助检索反而拓宽了知识边界——用户引用了更多新发表、低热度但有潜力的研究，减少了对热门文献的依赖，展现出更强的diversity 探索。

然而，研究也揭示了一个严峻的反向信号：传统的写作质量已不再可靠。在非AI论文中，语言越复杂，发表概率越高；但在AI辅助论文中，这一关系完全逆转——语言越华丽，专家评分越低，发表可能性也越小。研究者指出，这是因为LLM能轻易生成“看起来专业”的文本，使复杂的句式不再反映思想深度。这动摇了审稿人长期依赖的“写作即质量”的启发式判断，也暴露出科学评价体系的脆弱性。

这篇研究的真正意义，不在于记录AI的普及，而在于警示科学共同体正面临制度性挑战。当“语言图灵测试”失效，我们必须转向更本质的评判标准：逻辑严密性、数据真实性与方法创新性。同时，面对可能涌现的“学术泡沫”，研究呼吁发展“AI审稿代理”来对冲风险，并重新界定AI辅助与学术诚信的边界。AI不是救星也不是灾难，而是一面放大镜——它放大了能力，也放大了问题。唯有重构评价机制，才能让技术真正服务于科学的integrity 与进步。

反应 6

青
青禾

非英语母语者终于看到一丝公平的光了，以前写英文论文像渡劫，现在至少能把想法更快地表达出来。但担心的是，以后会不会连审稿人都得用AI来过滤AI？
思
思源实验室

data 量和方法都很扎实，但我觉得最大的挑战不是技术，而是文化——很多导师 still value 漂亮的文风 over solid reasoning，这种惯性一时难改。
冷
冷眼观潮

生产力提升是事实，但发表率没跟上的话，可能只是制造了更多noise 。我们需要的是高质量知识，不是论文数量竞赛。
老
老K

看到‘语言越复杂，评分越低’这条真震惊。以前拼命学学术写作套路，结果现在成了red flag ？时代变了。
星
星轨

引用冷门研究这点我很认同。我用AI查文献时，它常推荐一些我根本搜不到但很有启发的旧论文，这种discovery 感是传统搜索给不了的。
审
审稿人乙

作为期刊审稿人，我已经开始怀疑每一篇文笔太流畅的投稿了。现在不仅要看内容，还得揣摩哪些句子像generated 的……工作量翻倍。

有了AI，人们却过得越来越累了

我国学者在心力衰竭发病机制及靶向治疗获新进展

持续整治网络金融信息乱象

华为视频服务升级！工程师远程出手：解决门锁异常、路由器故障

三星加快研发下一代高带宽内存首批HBM4E将于5月投产