数据邪修大法好:仅用文本数据就能预训练多模态大模型

量子位·2026年03月03日 15:58
不仅成本低还能超越基线

没有图片,也能预训练多模态大模型?

在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力

为了让模型学会看图,不得不耗费巨资收集海量图片,并为每一张图片生成高质量的图像描述。这种一一对应的强监督数据,一直被视为多模态训练的燃料。

但来自港科大(广州)、NUS等机构的最新研究ReVision给出了一个反直觉的结论:其实,在多模态大模型最依赖大规模图文对数据的预训练阶段(Pretraining),那些昂贵的配对关系并不是必须的

理论基石:为什么“表征对齐”能替代“配对”?

在深入几何细节之前,必须阐明ReVision能够成立的底层约束条件。本文的方法并非适用于任意两个独立的特征提取器,而是严格构建在多模态对比学习(Multimodal Contrastive Learning)所建立的共享表征空间(Joint Representation Space)这一基础之上。

1. 预训练已构建了「语义拓扑一致性」:经过海量数据预训练的双塔模型(如CLIP、SigLIP),通过InfoNCE损失函数,已经强制将图像和文本映射到了同一个高维嵌入空间中。在这个空间内,虽然不同模态的特征分布尚未完全重合,但它们已经具备了高度一致的语义拓扑(Semantic Topology)。即:表达相同语义的视觉嵌入和文本嵌入,虽然在空间绝对位置上存在距离,但它们与其他语义概念的相对距离关系是保持一致的。

2. 模态鸿沟的本质:系统性的几何偏移正如论文指出,这种未重合的现象并非随机的混乱,而是一种系统性偏移(Systematically Offset)。这意味着,图像分布和文本分布在几何上仅仅存在旋转、缩放和平移的偏差。

结论:既然对比学习已经解决了语义相关性的问题,留给我们的仅仅是几何分布的不对齐。因此,我们无需再次依赖昂贵的成对数据来重新学习语义对应关系,而仅需利用非配对数据的统计信息(Statistics of Unpaired Data),对文本表征的一阶矩(均值)和二阶矩(协方差)进行修正,使其分布特性与图像表征对齐,即可实现跨模态的互换性。

深挖底层:模态鸿沟到底长什么样?

既然明确了只需要解决几何偏移,那么这个偏移到底长什么样?为什么说不需要配对数据?因为研究发现,以往的研究对模态鸿沟(Modality Gap)的理解存在一个巨大的几何误区。

要想跨越鸿沟,首先得看清它的形状。

过去的误解:各向同性谬误

以往的方法虽然承认图像和文本在对比学习预训练的共享表征空间中存在距离,但它们简单地认为这种偏差是均匀的。它们假设鸿沟中的噪音像一个完美的球体(各向同性),向四面八方均匀扩散。

基于这种假设的对齐,往往只修正了中心点的偏移,却忽略了内部结构的差异,导致特征中的细粒度语义被稀释。

发现:固定框架下的各向异性

ReVision团队通过固定框架模态鸿沟理论,在微观层面重新解构了这一现象。在一个冻结的参考系中,可以将鸿沟分解为两个精准的几何部分:

稳定的偏差(Stable Bias):这不仅仅是位置的偏移,更包含了一种被动的、由子空间旋转带来的系统性漂移。

各向异性的残差(Anisotropic Residuals):这是最关键的发现。鸿沟内部的波动并不是球形的,而是像椭球一样是拉伸的(各向异性)。

在语义子空间里,这些波动与梯度方向高度锁定,承载着核心的语义信息。

在正交子空间里,噪音与偏差呈现垂直分布。如果强行用球形噪音去模拟,会产生一种幽灵漂移(Phantom Drift),导致投影到球面后的特征方向发生错误。

结论:在对比学习预训练的共享表征空间中,模态鸿沟不是一团乱麻,而是一个有特定长宽比、特定朝向的几何结构。只要能精准复刻这个各向异性的形状,就能完美模拟视觉特征。

核心突破:打破“一一对应”的数据枷锁

基于对模态鸿沟(Modality Gap)形状的精准把控,研究团队找到了一条在预训练阶段绕过昂贵配对数据的捷径。

核心逻辑:用几何对齐的表征训练模型。团队的前提假设非常大胆但符合几何直觉:对于大模型而言,它并不真正“看”图,它看的是特征的分布形状。如果我们能通过数学手段,提取出图像数据的几何特征,并将这些统计规律赋予纯文本数据,那么这段文本在特征空间里,就会被伪装成一张图片。

前提条件:统计替代配对。一旦这个逻辑成立,对应的强监督图文对(Image-Text Pairs)就不再是预训练的必需品。我们只需要满足两个低成本的前提条件:

1. 海量的非配对文本:提供丰富的语义知识。

2. 非配对图像的统计分布(Statistics of Unpaired Images):提供“视觉空间”的几何模具。

结论:只要掌握了图像的统计分布规律,我们就可以把世界上任何一条文本数据,在数学上变换成视觉信号喂给模型。这使得能够用廉价的文本数据,去模拟昂贵的视觉训练过程。

怎么做到的?“以形补形”的模态替换

研究团队提出了一套名为ReAlign的策略,这是一次基于几何原理的数据对齐:

第一步:锚点对齐(Anchor Alignment)

首先解决最基础的位置问题。系统计算出图像数据在空间中的重心,将文本数据的中心平移过去。这消除了一阶偏差

第二步:迹对齐(Trace Alignment)

这是针对各向异性的关键一步。不用再像传统方法那样注入球形噪音,而是根据图像数据的全局迹,通过线性仿射变换,对文本特征进行拉伸和旋转。

这一步确保了文本特征在保留自身语义结构的同时,在几何尺度和形状上完美复刻了视觉特征的各向异性残差

第三步:质心对齐(Centroid Alignment)

最后,为了消除投影到单位超球面时产生的幽灵漂移,团队进行了一次显式的二次校正。这确保了特征在最终的流形面上精准对齐。

结果:经过这一套组合拳,一段纯文本的特征,在数学属性上已经无限逼近真实的图像特征。整个过程完全不需要真实图片参与,更不需要任何人工标注的配对数据。

为何“非配对文本”反而更强?

您可能会问:既然目的是看图,为什么不直接用图文对,非要绕弯子用纯文本?

这正是ReVision最具颠覆性的发现:在数据规模面前,数据的配对关系不再重要,数据的知识密度才是王道。

1.突破数据枯竭的危机

高质量的图文对是有限的,且清洗成本极高。但非配对的文本是近乎无限的。互联网上的每一本书、每一篇论文,现在都可以通过ReVision转化为训练多模态模型的燃料。

2.知识深度的降维打击

传统的图文对往往包含有限的语义信息。

而该研究使用的非配对长文本,可以是一整段包含丰富语义的文本,不受显式的图片约束。当模型通过这些长文本来学习视觉概念时,它学到的不仅仅是图像的特征,更是背后复杂的世界知识和推理逻辑

3.极致的性价比

实验数据令人振奋:使用200万条纯文本(经过ReAlign几何变换)预训练出的模型,其性能竟然超过了使用100万条真实图文对预训练的基线模型。

更关键的是,前者的预训练数据成本仅为后者的74%

结语

ReVision的出现,为多模态大模型的训练打开了一扇新的大门。

它证明了我们不需要被配对数据卡住脖子。只要看透了模态鸿沟的几何形状,利用好统计学的魔法,海量的纯文本资源就是最好的视觉教材。不需要昂贵的标注,不需要一一对应的束缚,只要有文本,AI就能学会看懂这个世界。

Arxiv:

https://arxiv.org/abs/2602.07026Github:

https://github.com/Yu-xm/ReVision.gitHuggingFace Daily Paper:

https://huggingface.co/papers/2602.07026合作详询:

yuxm02@gmail.com

本文来自微信公众号“量子位”,作者:ReVision团队,36氪经授权发布。

+1
18

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

滑向冰球将要去的地方,而不是它现在所在的地方。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业