DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
创始人
2025-08-20 12:45:43

本文来自微信公众号:机器之心 (ID:almosthuman2014),编辑:冷猫,+0,作者:机器之心


「兄弟们,DiT是错的!」


最近一篇帖子在X上引发了很大的讨论,有博主表示DiT存在架构上的缺陷,并附上一张论文截图。



图1.我们引入了TREAD,这是一种能够显著提升基于token的扩散模型骨干网络训练效率的训练策略。当应用于标准的DiT骨干网络时,我们在无引导FID指标上实现了14/37倍的训练速度提升,同时也收敛到了更好的生成质量。


图中横轴代表训练时间(以A100 GPU的小时数为单位,log尺度,从100小时到10000小时),纵轴代表FID分数(越低越好,代表生成图像质量越高)。


博主认为,这个图的核心信息不是TREAD的速度优势,而是DiT的FID过早稳定,暗示DiT可能存在「隐性架构缺陷」,导致其无法继续从数据中学习。



博主提到的论文发表于今年1月(3月更新v2),介绍了一种名为TREAD的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了DiT模型。


具体而言,TREAD在训练过程中使用「部分令牌集」(partial token set)vs「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与MaskDiT等方法类似,但更高效。


论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training


论文地址:https://arxiv.org/abs/2501.04765


代码:https://github.com/CompVis/tread


博主在后续回复中逐步展开了对DiT的批判,并解释TREAD如何暴露这些问题。


博主指出,该论文揭示了DiT模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为「恒等函数」(Identity Function)——也就是让这些单元什么计算都不做,仅仅是「直通」数据,相当于被临时禁用了——模型的最终评估分数反而会提高。


接着博主指出DiT的两个「可疑」的设计:


整个架构都使用「后层归一化」(Post-LayerNorm)


博主认为DiT使用了一种已知不太稳定的技术(后层归一化),来处理一个数值范围变化极其剧烈的任务(扩散过程)。


adaLN-zero


博主认为,这个模型虽然整体上自称是「Transformer」架构,但在处理最关键的「指导信息」(即条件数据)时,并没有使用强大的Transformer,而是用了一个非常简单的MLP网络(多层感知机)。


更具体地,adaLN-zero通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于「讨厌注意力操作」(hate the attention operation),从而削弱了DiT的整体潜力。



博主还提到与早期论文相关的LayerNorm研究,指出LayerNorm的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero正是利用了这一点,名为「梯度调节」,实则像是在「给小模型偷偷注入过拟合的偏置」。


论文标题:Understanding and Improving Layer Normalization


论文地址:https://arxiv.org/abs/1911.07013


看了这篇帖子,DiT的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。


在2022年,谢赛宁发表了DiT的论文,这是扩散模式首次和Transformer相结合。


论文标题:Scalable Diffusion Models with Transformers


论文链接:https://arxiv.org/pdf/2212.09748


在DiT问世之后,Transformer逐步代替原始扩散模型中的U-Net,在图像和视频生成任务中生成高质量的结果。


其核心思想是采用Transformer代替传统的卷积神经网络作为扩散模型的主干网络。


这一方法业已成为Sora和Stable Diffusion 3的基础架构,同时也确定了DiT的学术地位。


在DiT论文刚刚问世时,就已接连受到质疑,甚至以「缺乏创新」为由被CVPR 2023拒稿。


这一次面对DiT在数学和形式上都「是错的」的论调,谢赛宁发推做出了几点回应。


从字里行间来看,谢赛宁对这个帖子多少有些情绪:


我知道原帖是在钓鱼骗点击率,但我还是咬一下钩……


坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。


我们每天都在用SiT、REPA、REPA-E等方法试图打破DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学……否则,你得出的结论不仅仅是错的,而是根本连错都谈不上。


也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:


谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了DiT架构目前存在一些硬伤。


截至今天,DiT的问题:


tread更接近于stochastic depth,我认为它的收敛性来自正则化效应,这让表示能力更强(注意推理过程是标准的——所有模块都会处理所有token);这是非常有意思的工作,但和原帖说的完全不是一回事。


Lightning DiT已经是经过验证的稳健升级版(结合了swiglu、rmsnorm、rope、patch size=1),有条件就应该优先使用它。


没有任何证据表明post-norm会带来负面影响。


过去一年最大的改进点在于内部表示学习:最早是REPA,但现在有很多方法(例如tokenizer层面的修正:VA-VAE/REPA-E,把语义token拼接进噪声潜变量、解耦式架构如DDT,或者通过分散损失、自表示对齐等正则化手段)。


始终优先采用随机插值/流匹配(SiT在这里应该是基线)。


对于时间嵌入,使用AdaLN-zero;但遇到更复杂的分布(如文本嵌入)时,应采用交叉注意力。


不过要用对方式——采用PixArt风格的共享AdaLN,否则会白白浪费30%的参数。


真正的「硬伤」其实是DiT里的sd-vae:这是显而易见却长期被忽视的问题——它臃肿低效(处理256×256图像竟需要445.87 GFlops?)、不是端到端的。像VA-VAE和REPA-E只是部分修复,更多进展还在路上。


评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:


算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓「不破不立」,但DiT仍然在擂台中央,不是么?


相关内容

热门资讯

本轮A股上涨的逻辑 本轮A股上... 作者丨宋雪涛(国金证券首席经济学家)编辑丨洪晓文近期上证指数创下近10年新高,一度突破3746点,深...
左手双抗右手ADC:药明生物与... 21世纪经济报道记者 韩利明连日来,CXO(医药外包)领域传来积极信号。CRDMO(合同研究、开发和...
寒武纪:8月19日融资买入11... 证券之星消息,8月19日,寒武纪(688256)融资买入11.2亿元,融资偿还13.31亿元,融资净...
一张“贷款明白纸”让企业融资成... 新华社北京8月20日电 《中国证券报》20日刊发文章《一张“贷款明白纸”让企业融资成本成为明白账》。...
政府和市场如何分工合作?黄益平... 南都讯 记者杨文君 发自北京 近日,北京大学国家发展研究院举行第41期承泽论坛,主题为“中国经济的新...
上交所:新乡投资集团有限公司债... 8月20日,上交所发布关于新乡投资集团有限公司2025年面向专业投资者非公开发行公司债券(第五期)挂...
盼盼食品董事长蔡金垵谈红海突围... 每经记者|赵李南 每经编辑|魏文艺 8月19日,在“活力中国调研行”活动中,盼盼食品集团董事长蔡金...
上海金融法院:2018—202... 中经实习记者 孙小琴 记者 夏欣 北京报道8月20日,上海金融法院正式发布《证券虚假陈述责任纠纷法律...
泡泡玛特新品未售先火,二手平台... 红星资本局8月20日消息,8月21日,泡泡玛特(09992.HK)将发售多款新品,尽管所有产品都尚未...
700亿元,3分钟搞懂钱还能这... 本文来自微信公众号:三折人生,作者:三折人生,原文标题:《700亿元!3分钟搞懂钱还能这样换钱!》,...
中国动力电池如何后来居上 2023年,中国动力电池占全球市场份额的 63.2%,全球动力电池前十位的企业里,有六家中国企业。宁...
每日互动:上半年营收2.18亿...   中新经纬8月20日电 (谢婧雯)19日晚,每日互动股份有限公司(下称每日互动)披露2025年半年...
开盘跌停,实控人被留置前两月卸... 记者丨李益文编辑丨叶映橙8月20日,被誉为“中国版军工Palantir”的科思科技(688788.S...
广州服装产业外迁,下一站湖北天... 湖北天门如何能够承接海珠康鹭的制衣产业转移,主要应该从两个方面去思考:一是承接的能力,二是承接的动力...
科创50指数涨超3% 科创50... 同花顺iFinD截图【科创50指数涨超3%】截至发稿时,科创50指数涨3.06%。个股方面,芯原股份...
港交所:上半年新股市场融资额重...   中新经纬8月20日电 据香港交易所微信公众号20日消息,香港交易所公布2025年中期业绩,上半年...
欧佩股份新三板摘牌:外销收入占... 个人护理用品供应商欧佩股份在新三板终止挂牌。8月18日,新京报贝壳财经记者获悉,江苏欧佩日化股份有限...
上半年净利润增长23%!华润啤... 中国商报(记者 周子荑 文/图)8月19日,啤酒行业龙头企业华润啤酒发布半年报。从整体来看,该公司营...
V观财报|老铺黄金上半年收入同...   中新经纬8月20日电 老铺黄金20日在港交所发布中期业绩公告,2025年上半年,收入为123.5...
眼镜,会是下一个通用计算平台吗... 本文来自微信公众号:还是不举手就发言,作者:周航,题图来自:视觉中国自从手机取代PC,成为新一代通用...
字节否认推出“AI手机”!业内... 本文来源:时代周报 作者:何珊珊8月19日晚,有媒体报道称字节跳动正研发酝酿“AI手机”,目前名称是...
海油发展上半年实现净利润18.... 本报讯 (记者向炎涛)8月20日,中海油能源发展股份有限公司(以下简称“海油发展”发布)2025年半...
整顿贵价水果市场,还得靠云南人 本文来自微信公众号:新周刊 (ID:new-weekly),作者:岱安,编辑:曾宝气2004年,“超...
「寻芯记」代工巨头内部大整合!... 本报(chinatimes.net.cn)记者石飞月 北京报道科创板上市两年后,华虹半导体终于来兑现...
中国建筑兴业:上半年股东应占利... 中国建筑兴业(0830.HK)发布2025年上半年财报。财务数据显示,2025年上半年公司营收为33...
原创 帮... 老铁们,上午这行情是不是看得有点迷糊?沪指微跌0.05%,创业板却跌超1.7%,两市成交额缩了140...
扬州产业经济的“起飞三式” 扬... 文 | 山核桃一票难求、赞助扎堆、全民造梗,这个夏天,“苏超”成了无可争议的顶流。赛场内外,扬州面向...
A股红利板块逆势走强,关注红利... 截至午间收盘,中证红利低波动指数上涨0.5%,中证红利价值指数上涨0.4%,中证红利指数上涨0.3%...
你以为一个6块的冰杯很贵?它想... 最近,天气持续高温,杭州属实是在外面走两步就开始汗流浃背的程度。 唯一能让人类坚持出门的,可能就是上...
中国人寿:深耕八桂大地 绘就健... 健康是人们幸福生活的基石,也是社会和谐发展的保障。随着经济社会水平的不断提高,人民群众更加重视生命质...