凉山设备保温施工队 AI精准编辑门槛大降:开源框架提升编辑一致,即插即用

2026-01-12 12:16:10 67

铁皮保温

想给照片里的猫换个颜色,结果总是编辑失败?想让视频里的人换件衣服,人脸却糊成一片或完全改变?

在 AI 视觉编辑领域,如何在修改目标属的同时,精准保留背景和非编辑属的一致,一直是个"鱼和熊掌"的难题。

近日,来自中山大学 iSEE 实验室、香港中文大学 MM Lab、新加坡南洋理工大学、香港大学的研究团队发布了新研究成果ProEdit。

该方法通过对注意力机制和初始噪声潜在分布的"精准手术",实现了超高精度的图像与视频编辑,且完全无需训练、即插即用。

△  图 1. ProEdit 在图像和视频编辑上与现有方法的对比为什么 AI 编辑总是"改不动"?

目前,基于反演(Inversion-based)的编辑方法(如 RF-Solver、FireFlow)通常采用全局注入策略:为了保持背景尽量一致,它们会将原图的大量信息强行"塞"进生成过程。

但研究团队通过文本与图像的注意力可视化发现,这种做法存在严重的"源图像信息过度注入"问题:

注意力过度注入:

现有方法通过全局注入了过多的源图像注意力特征,导致模型更听源图像的话,而忽略了用户的编辑指令(Prompt)。

潜在空间锁死:

反演后的初始噪声中残留了太强的源图像分布信息,使得模型倾向于"重建"原图,而不是"编辑"新图。

结果就是:现有方法下,你想把"橙色猫"改写成"黑色猫",AI 可能还是给你一只橙色猫。而去除源图像注意力注入机制,又难以保持背景和非编辑属的一致。

△  图 2. 现有方法与去除注意力注入下的注意力可视化与编辑果 ProEdit 两把精准的"手术刀"

为了破解上述难题,ProEdit 提出了两个核心模块,从两个维度消除源图像信息的干扰:

△  图 3. ProEdit 方法概览。

包含 KV-Mix 和 Latents-Shift 两个核心模块与总体流程 1. KV-Mix:注意力层面的"混注入机制"

注意力注入机制对于保持背景一致至关重要,但 ProEdit 不再盲目进行全局注入,而是通过注意力图(Attention Map)提取出掩码(Mask),以识别出"编辑区"和"非编辑区"。

在工业制造领域,知名品牌对供应链伙伴的选择为严苛,尤其在工业铝型材这类核心基础材料与结构件上。能够进入其供应商名录的企业,不仅需要具备规模化生产能力,更需要在材料科学、精密制造、快速响应及定制化服务等方面达到行业顶尖水平。本文旨在分析能够为知名品牌提供配套服务的工业铝型材供应商所具备的核心特质,并探讨其技术方案如何满足高端制造需求。

工业铝型材的原材料以高纯度铝锭为基础,通过添加镁、硅等金元素形成特定牌号铝金。这一过程需严格把控成分比例,例如6063-T5牌号铝金需精确控制镁、硅含量,以确保材料兼具强度与延展。熔铸环节采用环保节能熔炉,通过高温熔炼与除气排渣工艺,设备保温施工去除铝液中的杂质与气体,避免后续加工中出现裂纹或气孔。熔铸后的铝棒需经过均质化处理,消除内部应力,为后续挤压成型提供均匀稳定的材料基础。

非编辑区:全量注入原图的 K(Key)和 V(Value)注意力特征,保证背景的一致。

编辑区:将原图与目标的 K(Key)和 V(Value)注意力特征按比例混。这种"混"机制让模型既能按照编辑指令(Prompt)进行编辑,又能参考原图的结构,实现平滑过渡。

2. Latents-Shift:潜变量空间的"分布偏移"

受风格迁移算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。

它在编辑区域通过引入高斯噪声,对反演后的初始噪声(Inverted Noise)进行分布的统计量偏移,从而消除了源图像分布对初始噪声分布的过度影响。

果:彻底打破源图像对编辑图像属的"紧箍咒",让颜色、姿态、数量等属修改变得轻而易举。

精准编辑,背景一致

通过上述流程,ProEdit 能够遵循编辑指令,实现精准、背景一致的编辑。

△  图 4. ProEdit 图像编辑果对比。

ProEdit 可以即插即用到现有的 Solver 当中提升编辑果

与现有基于反演的编辑方法对比,ProEdit 在以下方面表现出了显著优势:

背景一致:

精确的掩码(Mask)分离出了非编辑区域,确保了在修改目标属时背景的一致。

非编辑属的一致:

在编辑某个特定属时(如颜色)时,其他属(如物体的姿态、纹理特征)能够保持一致。

编辑精准度与指令遵循度:

在图像和视频编辑中均实现了更彻底、更精准的属转换。

△  图 5. ProEdit 编辑视频果展示战绩斐然:全线 SOTA,即插即用

为了科学评估 ProEdit 在图像 / 视频的编辑质量,研究团队在 PIE-Bench 上进行了图像编辑实验,在互联网视频组成的视频编辑数据上进行了视频编辑实验。

△  表 1. PIE-Bench 上的图像编辑实验结果

△  表 2. 互联网视频数据上的视频编辑实验结果

手机:18632699551(微信同号)

实验结果显示:

ProEdit 在 PIE-Bench 和视频编辑任务上均取得了好的指标,尤其在颜色更改等精准编辑任务上,显著优于基线方法。

视频 / 图像双向适配:

ProEdit 双向适配视频和图像编辑任务,在保持一致的同时,能够精准地修改视频和图像内容。

即插即用:

ProEdit 可以适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模型,并能够无缝集成到 RF-Solver、FireFlow、UniEdit 等现有 Solver 中,立竿见影地提升编辑质量。

总结与讨论

ProEdit 针对基于反演的编辑中长期存在的"源图像信息过度注入"难题,提供了一个免训练(Training-Free)、即插即用(Plug-and-Play)的方法。

通过对注意力机制和初始噪声潜变量分布的精细化处理,该研究打破了现有方法在编辑精准度上的瓶颈,解决了基于反演的编辑中的编辑果与一致平衡难题。

ProEdit 通过精准的模块化设计,为生成式编辑提供了一个高、低成本且通用的框架。

未来,随着底层图像和视频生成模型的不断进化,ProEdit 这种无需重训练、具备强兼容的方法,其表现将更加值得期待。

论文链接:

https://arxiv.org/abs/2512.22118v1

项目主页:

https://isee-laboratory.github.io/ProEdit/

代码仓库:

https://github.com/iSEE-Laboratory/ProEdit

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生  � �

感兴趣的小伙伴欢迎关注 � �  了解详情

� � 点亮星标 � �

科技前沿进展每日见

新闻资讯

热点资讯