纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象
近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑战:
不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。
现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和泛化能力。
为了解决上述难题,清华&华为&中科大团队提出LoVoRA(Learnable Object-aware Localization for Video Object Removal and Addition)——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。
LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。
数据集构建
现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等,具有显著先进的文本引导视频操作。
然而,它们仍然存在一些局限性:低空间和时间分辨率;由逐帧生成引起的背景不一致;以及对象添加和移除场景的覆盖范围有限。
为了克服这些问题,团队构建了一个高质量的数据集,专门用于视频中的对象级添加和擦除,这是框架的基础。数据集建立在高保真图像编辑数据集NHR-Edit上,并通过多级pipeline合成为时间一致的视频编辑序列。
与之前的工作相比,数据集提供了更好的背景一致性,准确的对象级时空掩码,与编辑语义一致的鲁棒文本指令。此外,它还提供密集的运动掩码监督,使LoVoRA中的目标感知编辑定位能够进行训练和评估。
给定一对高质量的图像编辑三元组Is, It, p(源图像、目标图像与编辑指令),通过一个统一的多阶段合成流水线将其转化为具有时空监督的视频编辑对Vs, Vt:
a. 使用基于文本的图像到视频生成器(Wan2.2)在保持场景布局与背景一致性的前提下,将单帧图像扩展为时间上连贯的源视频Vs,其中场景描述pscene由InternVL3提取以确保文本与视觉语义的初步对齐;
b. 随后针对编辑指令在源/目标图像的首帧上进行对象定位:通过Grounding-DINO获取目标边界框并调用 SAM2 提取高质量二值分割掩码,经过形态学平滑得到初始掩码M1。
c. 为将该静态掩码扩展为全视频的时序掩码流,采用GMFlow估计源视频的稠密光流并对掩码进行反向光流拼接与传播,同时引入双向流一致性检测以处理遮挡与位移误差,从而得到平滑且与运动相符的掩码序列{Mt}Tt=1。
d. 最后,基于得到的掩码流、源视频以及文本指令,用VACE进行视频内填充生成编辑后视频Vt,该步骤既保证了被编辑区域的语义变化(对象移除或插入),又维护了背景与运动的全局一致性。
为保证语义与质量的稳定性,整个流水线还通过InternVL3自动生成并校验文本指令,对生成样本应用面积与运动幅度阈值筛选(即保证掩码面积与视频运动量落在合理区间)以剔除弱信号样本。
最终构建的数据集包含每对Vs, Vt, p所需的全部信息:时序掩码、像素级光流以及语义对齐的指令文本,这些密集的时空与语义监督为训练 LoVoRA 的可学习定位与编辑模块提供了关键支持。
△
模型
△
LoVoRA 的核心思想,是在一个统一的端到端框架中,通过文本即可完成视频中对象的移除与添加,而不依赖任何推理阶段的掩码、参考帧或手工控制信号。
为实现这一点,团队构建了一个基于时空VAE与3D DiT的视频编辑架构:模型首先将输入视频编码到潜空间,通过通道拼接方式同时接收原视频的潜变量与噪声潜变量,再由3D DiT在文本指令的跨模态引导下逐步对潜空间进行结构化重建,从而生成与语义一致、运动自然的编辑后视频。
这一架构能够同时建模空间细节、时间一致性与文本语义,使LoVoRA可以在复杂场景中保持背景结构和时序连贯性。
仅靠文本并不足以让模型可靠地决定“应该在哪里编辑”,因此进一步提出了一个轻量的可学习对象定位机制Diffusion Mask Predictor(DMP)。
该模块从DiT的中间特征中学习预测一个随时间变化的软掩码,用于表示哪些区域与当前编辑最相关。通过在训练过程中结合数据集中提供的时序掩码监督,DMP逐渐学会将模型的编辑能力集中到目标对象上,而在推理阶段无需任何显式掩码即可实现自动定位。这一机制有效避免了传统方法的过度编辑或漏编辑问题,显著提升了空间精度与时序稳定性。
在两者结合下,LoVoRA实现了真正意义上的文本驱动、完全mask-free的视频对象编辑。基础架构保证了整体视频的自然性与一致性,而可学习的对象定位使模型能够精准理解文本语义并聚焦于关键区域,从而在对象移除与添加两类任务中,都能生成高质量、语义一致、时序稳定的视频结果。
实验与分析
定量分析:在DAVIS与LoVoRA-Bench的综合测试中,LoVoRA在文本对齐度、视频质量与VLM评估(包括Prompt Following与Edit Quality)等关键指标上全面领先主流视频编辑方法。
无论是对象移除还是对象添加任务,LoVoRA都在大多数指标上取得最佳或次优结果,体现出在语义一致性、对象级操作精度、背景稳定性与运动连续性上的显著优势。
与Ditto等注重外观增强但容易牺牲局部准确性的模型不同,LoVoRA在保持整体画面美观的同时,显著提升了编辑的可控性;而相比依赖参照帧的Senorita,LoVoRA在无辅助输入条件下仍展现出高度竞争力,证明了可学习定位机制的有效性。总体来看,各项定量指标验证了LoVoRA在文本理解、定位精度与编辑质量上的强综合表现。
定性分析:从可视化结果中可以观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务,LoVoRA能够干净地擦除目标对象,几乎不留残影或结构性破坏,同时完整保留原有的纹理、光照与背景几何;
对于添加任务,插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境无缝融合,甚至在遮挡关系、快速运动等困难场景中也保持稳定。而多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题——这些在 LoVoRA 中均得到改善,展现出更高的真实感与一致性。
结语
LoVoRA提供了一种面向未来的视频编辑范式:无需任何手工掩码,仅凭一句自然语言即可驱动对象级别的准确、自然且时序一致的视频修改。
结合新构建的数据集与可学习的对象定位策略,LoVoRA 在语义理解、空间精度与时间稳定性上均取得了领先表现,全面超越现有的指令式视频编辑模型。
研究表明,让模型在训练阶段学习“隐式定位”是实现通用、高可控、可扩展视频编辑的有效途径,也为后续面向开放世界的视频编辑与创作工具奠定了基础。
论文地址:https://arxiv.org/abs/2512.02933
项目地址:https://github.com/cz-5f/LoVoRA.github.io
数据集:https://huggingface.co/datasets/cz-5f/LoVoRA
本文来自微信公众号“量子位”,作者:LoVoRA团队,36氪经授权发布。















