中国论文工厂,已经用AI批量生产垃圾论文了?
创始人
2025-07-09 15:03:33

如今,中国存在所谓的“论文工厂”现象,且已开始利用 AI 进行批量生产垃圾论文。这些“论文工厂”无视学术道德和规范,通过 AI 程序生成大量内容空洞、逻辑混乱的论文。它们以盈利为目的,迎合一些急于求成的学者或学生的需求,严重破坏了学术环境的纯洁性。这种行为不仅损害了真正有价值的学术研究,也让学术成果的可信度大打折扣。相关部门应加大监管力度,严厉打击这种利用 AI 批量制造垃圾论文的行为,维护学术的尊严和公信力。

需要强调的是,这只是基于给定内容的创作,实际情况可能因地区、行业等因素而有所不同,绝大多数学者和科研工作者都秉持着严谨的态度进行学术研究和论文创作。


Scientific Reports的副主编、英国萨里大学数据科学家马特·斯皮克(Matt Spick)注意到,一批垃圾论文正以每天一篇甚至两篇的速度,在迅速涌入他工作的期刊。


它们选题各异,套路却惊人地一致。有的研究血清维生素D与抑郁症的关系,有的分析碘摄入与糖尿病,有的考察炎症指数与睡眠质量,总之就是考察一个变量对一种疾病的影响。只需一份标准化的数据集、一段回归模型脚本,再得出一个统计显著的结果,这类论文就能迅速成文。换个变量,又是新的一篇。


这种没有信息含量的垃圾论文数量在迅速膨胀。2024年,仅1月至10月,全球就发表了190篇这类基于美国 NHANES 健康数据库的“单因子关联研究”,几乎是2014至2021年间年均发表数量的五十倍。


国产垃圾论文攻陷国外期刊


更引人注意的是,垃圾论文数量的激增几乎完全集中在中国。2021至2024年间,全球共发表了316篇此类论文,其中有292篇的第一作者来自中国单位,占比超过92%。而在2014至2020年的25篇中,这一数字仅为2篇[1]


这组数据来自于斯皮克和他合作者今年发布的一项研究。为了系统性地研究这一现象,斯派克和他的合作者在PubMed和Scopus等学术数据库中,使用精确的关键词组合进行检索,筛选出过去十年间所有使用NHANES数据、且研究设计为单因素关联的论文。经过筛选,他们最终确定了341篇符合条件的论文作为分析对象。


这些论文大多采用相同的方法框架:使用 logistic 回归模型,研究一个健康变量与一种疾病或生理状态之间的统计关联,最多控制三五个协变量,结论集中在“显著相关”这一层面。研究的问题不同,结构几乎不变。


在对这三百多篇论文进行分析后,研究团队发现,它们普遍遵循一套高度重复的写作脚本。研究者从数据库中选取一个预测变量,比如某种维生素水平,再选择一个健康结果,比如抑郁症,通过标准化的统计流程将两者建立关联,最终得出一个简单的结论,A 与 B 相关。在最极端的情况下,研究者甚至只需颠倒自变量和因变量的位置,就能生成另一篇论文,无需任何生理学依据或理论假设,便可无限扩展变量与结局的组合方式。


为了进一步说明这类研究存在的问题,研究团队使用了网络分析方法,把所有论文中提到的预测变量和疾病之间的配对关系画成图表。结果显示,像抑郁症这样的复杂疾病,被几十个毫无关联的变量分别单独研究过一次。图中呈现出一种“一个变量对应一个疾病”的稀疏结构,揭示出这类研究往往忽视疾病背后的多重因素,只是简单地找出某种单一因素与某个结果之间的联系。


团队以抑郁症为例,检验这些论文是否可靠。他们统计了所有声称与抑郁症显著相关的研究,一共28篇,并使用一种叫“错误发现率”(FDR)的统计方法,对这些结果重新进行了校正。FDR 用来处理多个变量同时检验时容易出现的假阳性问题。结果发现,这28项中有15项在校正后不再显著,说明很多看起来有效的结果,其实可能只是偶然波动造成的。


研究人员进一步发现,不少论文在数据使用上存在操纵的嫌疑。NHANES 是一项跨年滚动调查,覆盖数十年的连续数据,供研究者完整调用。但在大部分论文中,作者却在没有提供任何解释的情况下,仅选取了其中一小段年份区间进行分析。这种精心挑选数据的做法,很难不令人怀疑其动机是为了筛选出p值最低、结果最漂亮的组合来发表。


将所有线索串联起来,一条AI论文流水线已经显示得非常清晰了。一个对AI开放的数据库作为原料,辅以自动化的分析脚本,再套用高度公式化的研究设计,最终得以在短期内以指数级速度产出大量雷同的论文。这套流程完美地契合了AI辅助的工作模式,正如报告作者所言,这种生产力的提升,对“旨在通过提供低质量或伪造稿件来牟利的论文工厂尤其具有吸引力” 。


论文工厂用上AI了


这一切的起点,是庞大的公共健康数据库NHANES。这是由美国官方主导的一项长期项目,旨在评估美国成人和儿童的健康与营养状况。该调查每两年进行一次,招募约1万名参与者,通过结合访谈、体格检查和实验室检测,收集了涵盖疾病、风险因素、营养指标等超过700个变量的综合数据。


造成这一局面的部分原因,在于NHANES 本身高度结构化的数据形式。它的数据可以通过API直接导入Python或R语言环境,一系列标准库(如 nhanesA、pynhanes、NHANES pyTOOL 等)支持自动搜索、清洗、建模与输出。过去需要团队手动完成的数据整理和图表绘制,如今可在更短时间内借助脚本工具实现。


更关键的是,NHANES是一个AI就绪(AI-ready)的数据集。 这意味着,研究者可以通过应用程序编程接口(API)轻松地、自动化地提取和分析数据。 这种设计本意是为提高科研效率,但它也为“数据挖掘”和批量生产论文打开了方便之门。


斯皮克团队认为,他们的研究结果很可能严重低估了问题的规模。他们的检索范围局限于符合利用NHANES的单因子研究。但更宽泛的搜索显示,仅在一年之间,使用 NHANES 数据发表的论文数量就从2023年的4926篇增长到了2024年的7876篇。


来自美国西北大学的研究者瑞兹·理查森(Reese Richardson)一直关注论文工厂的动向。他在一次快速检索中,就发现了5篇未被斯皮克团队纳入的 NHANES 论文,这些文章与某个可疑论文工厂有关联。它们的写作结构与斯皮克所识别出的论文非常相似,同样是围绕 NHANES 数据中的单一变量与某种疾病的简单相关性展开,例如电子烟使用与肺部疾病之间的关联[2]


以“临床公共数据库挖掘”为关键词,在中国社交媒体平台上不难搜到大量提供服务的公众号。其中除了本文提到的 NHANES 数据库,GBD(Global Burden of Disease,全球疾病负担研究)等数据库也频繁出现在这些平台的推文和案例中,成为热门的数据来源。


这类公众号大多提供多种模式的服务,例如:根据研究主题协助下载公开数据,完成统计分析,撰写数据分析报告,或在已有数据和主题的基础上提供论文思路和写作指导。一些平台还进一步打出“全流程陪跑”的口号,从选题、分析到英文润色,覆盖论文写作的各个阶段。


在一些平台的广告中,造假的暗示已非常露骨。例如有平台写道:“因公共数据库的开放性,我们提供的统计服务可不断更换研究主题,挖掘数据,直至分析出发表级的统计分析结果,并可提供中英文的方法和结果。”换句话说,就是以发表为目标,围绕数据库中的变量反复组合、拆解、筛选,直到跑出一组足够显著的结果。


参考文献:

[1]Suchak, T., Aliu, A. E., Harrison, C., Zwiggelaar, R., Geifman, N., & Spick, M. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLoS Biology, 23(5), e3003152.

[2]O’Grady, C. (2025, May 14). Low-quality papers are surging by exploiting public data sets and AI. Science.


本文来自微信公众号:知识分子,作者:张天祁

相关内容

热门资讯

河南郑州星级酒店“摆摊潮” 市... 连日来,河南郑州多家星级酒店开启“摆摊模式”,以“星级手艺、街头价格”撬动消费新市场,引来不少市民排...
苹果:2510合约收跌,新季收... 【苹果期货收跌,市场弱稳运行,新季收购价或高于去年】期货方面,昨日苹果2510合约收盘7658元/吨...
巴菲特退休,美国梦不再 股神巴... 本文来自微信公众号:九索,作者:经济小张,原文标题:《巴菲特退休,美国梦不再:我们时代所酝酿的巨大变...
专家解读:6月份CPI同比由降... 央广网北京7月9日消息(记者 樊瑞)7月9日,国家统计局发布最新数据显示,6月份,扩内需、促消费政策...
5连板金安国纪预计上半年净利暴... 近期连续斩获5个涨停板的金安国纪(002636.SZ)7月9日晚间披露了2025年半年度业绩预告,公...
曾被现场检查并遭监管警示,奥德... 导读:“如何继续保持业绩的稳定性和持续性,并在此前提下,前次IPO遭到证监会现场检查时所暴露的信息披...
省委巡视组进驻:深入查找影响和... 红星资本局7月9日消息,今日,据贵州茅台(600519.SH)微信公号,根据贵州省委关于巡视工作统一...
黄金回调机会备受关注,降息预期... 7月9日(周三),受市场情绪影响,黄金ETF基金(159937)早盘呈短期震荡下跌趋势,跌幅1.07...
无锡尚德,三婚了 无锡尚德,三... 7月9日,弘元绿能公告,公司于7月7日与顺风光电签署《合作经营协议》,将与无锡尚德合作开展生产经营管...
周杰伦,概念股飙涨! 周杰伦正式入驻抖音。 今日,华语乐坛巨星周杰伦正式宣布入驻抖音平台,开通其第二个中文社交媒体账号“周...
原创 比... 雷达财经出品 文|孟帅 编|深海 在最新出炉的《2025新财富500创富榜》中,张寓帅及其母亲郭梅兰...
年内最高收益近100%!主动权... 在港股和北交所等行情带动下,截至7月9日,年内主动权益基金大幅跑赢了被动指数基金。 其中,业绩最好的...
盒马超永辉位列三甲,奥乐齐中国... 7月9日下午,根据2024年行业基本情况调查结果,中国连锁经营协会(CCFA)公布“2024年中国超...
港股“狂飙”:一日五锣敲响上市... 当下,港交所正沉浸在一片热闹非凡的氛围中,人潮涌动间,一场资本盛宴正热烈上演。 一日五锣,港股上演“...
一度冲上3500点!沪指创年内... 正如一众机构预测,沪指今年首次站上3500点。 下半年开局,A股迎来强势表现,上证指数持续震荡上行。...
核心区房子还抗跌吗?2025买... 楼市救市政策一波接一波,房价却没起色?二手房堆成山,开发商还在爆雷,保障房又来抢客源……房地产回暖咋...
独家:旭辉迎来重组关键时刻,旭... 关注:点击上方蓝字“地产一品塘”,欢迎置顶或设为星标, 快速获取地产干货大家好,我是地产高富帅。近期...
杭州之战,美团快乐猴VS蒋凡盒... 交流快乐猴超市,实名添加微信lihua759321进群对于当下的即时零售大战,一位拥有15年阿里从业...
“华为天才少年”稚晖君冲进科创... 2025.07.09本文字数:3307,阅读时长大约5分钟作者 |第一财经 安卓一则收购上市公司控制...
锂电池让生活更美好,24年见证... 撰文丨林奇一颗外形酷似胶囊的医用内窥镜里,藏着一颗小小的电池。患者服下它后,这颗胶囊便化身“微型摄像...
多项参数对标库里南、卡宴,最高... 本文来源:时代财经 作者:陈梓庆7月9日,浩瀚-S架构暨极氪9X技术发布会举行,极氪首款大型SUV极...
券商注意!声誉管理将迎新规:严... 21世纪经济报道 记者 崔文静 北京报道行贿直接“拉黑”,但先行赔付可享“优待”。21世纪经济报道记...
创新药三期临床告捷!微芯生物仍... 7月9日晚间,微芯生物(688321.SH)公告称,公司自主研发的西达本胺针对一线治疗弥漫大B细胞淋...
库克接班人退休了,苹果设计也彻... 北京时间 7 月 9 日,苹果官方发布了一则简短却意义重大的新闻稿:长期担任二把手、现任首席运营官杰...
指数微涨,深证100ETF(1... 截至收盘,深证100指数、深证50指数均上涨0.1%,板块方面,多元金融、短剧、银行、新型城镇化等板...
原创 人... 货币的重要性对一个国家来说,是无法忽视的。正如在动画片《瑞克与莫蒂》里,天才科学家瑞克为了摧毁一个社...
奕丰金融资金盘再度发酵:如何安... 近日,奕丰金融资金盘跑路的消息引发了广泛关注,许多投资者对此感到困惑和不安。针对证券跟投项目的问题,...
首批主动权益基金二季报出炉:同... 首批主动权益基金二季报出炉。 7月9日,同泰产业升级混合、同泰金融精选股票、同泰远见灵活配置混合这3...
董事会大换血,将落实最高500... 记者丨李佳英 闫硕 编辑丨季媛媛7月9日,赛富基金披露,在今早进行的科兴生物特别股东大会上,投票通过...
康恩贝:二股东承诺避免同业竞争... 《金证研》南方资本中心 池恩/作者 易溪 南江 映蔚/风控2025年一季度,浙江康恩贝制药股份有限公...