观热点:无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成
这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。
随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限。
为了克python服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。
(资料图片)
在实际应用中,我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢?
例如,用户想生成某一个普通人的视频,但仅在输入文本中使用普通人的名字是无意义的,因为语言模型无法识别不在训练语料中的个体姓名。
针对这个问题,一种可行的解决方案是基于给定个体训练个性化的模型。
例如,DreamBooth和Dreamix通过多张图片理解个体概念,从而进行个性化的内容生成,不过这两种方法需要对每个个体分别进行学习,并且需要该个体的多张训练图片和精细化调参。
最近,来自新加坡国立大学(NUS)和华为诺亚实验室的研究者们在个性化视频编辑上取得了新的进展,通过多个集成模型的协同工作,无需对个性化概念进行额外的训练和微调,仅仅需要php一张目标参考图片,就能实现对已有视频的主角替换、背景替换以及特定主角的文生视频。
这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。
介绍
Make-A-Protagonist将视频分为主角和背景,对二者使用视觉或语言参考信息,从而实现主角编辑、背景编辑和特定主角的文生视频。
主角编辑功能允许用户使用相同的场景描述,但通过参考图像来替换视频中的主角。这意味着用户可以使用自己选择的图像来替换视频中的主要角色。
背景编辑功能允许用户使用与原始视频相同的主角描述(例「Suzuki Jimny」),并使用原始视频帧作为视觉信息,但可以更改对场景的文字描述(例如「in the rain」)。这样,用户可以保持相同的主角,但改变场景的描述,营造出不同的视觉效果。
特定主角的文生视频功能将主角编辑和背景编辑结合起来。用户可以使用参考图像作为主角,并对场景进行描述,从而创造出全新的视频内容。此外,对于多主角视频,Make-A-Protagonist还可以对单个或编程客栈多个角色进行更改。
与DreamBooth和Dreamix不同,Make-A-Protagonist仅需要单张参考图像,不需要对每个概念进行微调,因此在应用场景上更加灵活多样。Make-A-Protagonist为用户提供了一种简便而高效的方式来实现个性化的视频编辑和生成。
方法
Make-A-Protagonist使用多个强大的专家模型,对原视频、视觉和语言信息进行解析,并结合基于视觉语言的视频生成模型和基于掩码的去噪采样算法,实现通用视频编辑。该模型主要由三个关键部分组成:原视频解析,视觉和语言信息解析,以及视频生成。
具体来说,Make-A-Protagonist推理过程包括以下三步:首先使用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型对原视频进行解析,获得视频的主角掩码,并解析原视频的控制信号。
接下来,使用CLIP和DALL-E2Prior对视觉和语言信息进行解析。最后,使用基于视觉语言的视频生成模型和基于掩码的去噪采样算法,利用解析信息生成新的内容。
Make-A-Protagonist的创新之处在于引入了基于视觉语言的视频生成模型和基于掩码的去噪采样算法,通过整合多个专家模型并解析、融合多种信息,实现了视频编辑的突破。
这些模型的运用使得该系统更加精准地理解原视频、视觉和语言信息,并能够生成高质量的视频内容。
Make-A-Protagonist为用户提供了一款强大而灵活的工具,让他们能够轻松进行通用的视频编辑,创作出独特而令人惊艳的视觉作品。
1.原视频解析
原视频解析的目标是获取原视频的语言描述(caption)、主角文字描述、主角分割结果以及ControlNet所需的控制信号。
针对caption和主角文字描述,Make-A-Protagonist采用了BLIP-2模型。
通过对BLIP-2的图像网络进行修改,实现了对视频的解析,并使用captioning模式生成视频的描述,这些描述在训练和视频编辑中用于视频生成网络。
对于主角文字描述,Make-A-Protagonist使用VQA模式,提出问题:「视频的主角是什么?」并使用答案进一步解析原视频中的主角信息。
在原视频中的主角分割方面,Make-A-Protagonist利用上述得到的主角文字描述,在第一帧中使用GroundingDINO模型来定位相应的检测内容,并使用Segment Anything模型获得第一帧的分割掩码。然后,借助跟踪网络(XMem),Make-A-Protagonist得到整个视频序列的分割结果。
除此之外,Make-A-Protagonist利用ControlNet来保留原视频的细节和动作,因此需要提取原视频的控制信号。文中使用了深度信号和姿态信号。
通过这些创新的解析方法和技术,Make-A-Protagonist能够准确地解析原视频的语言描述、主角信息和分割结果,并提取控制信号,为后续的视频生成和编辑打下了坚实的基础。
2.视觉和语言信息解析
对于视觉信号,Make-A-Protagonist在本文中采用CLIP image embedding作为生成条件,为了去除参考图像背景的影响,类似于原视频解析,Make-A-Protagonist使用GroundingDINO和Segment Anything得到参考图像主角的分割掩码,使用掩码将分割后的图像输入CLIP视觉模型,以获取参考视觉信息。
语言信息主要用于控制背景,本文将语言信息用于两方面,一方面使用CLIP语言模型提取特征,作为注意力网络的key和value。
另一方面,使用DALL-E2Prior网络,将语言特征转化为视觉特征,从而增强表征能力。
3.视频生成
3.1视频生成网络训练
为了充分利用视觉信息,Make-A-Protagonist使用Stable UnCLIP作为预训练模型,并对原视频进行微调,从而实现利用视觉信息进行视频生成。
在每个训练迭代中,Make-A-Protagonist提取视频中随机一帧的CLIP image embedding,将其作为视觉信息输入到Residual bandroidlock中。
3.2基于掩码的去噪采样
为融合视觉信息和语言信息,本文提出基于掩码的去噪采样,在特征空间和隐空间对两种信息进行融合。
具体来说,在特征域,Make-A-Protagonist使用原视频的主角掩码,将主角对应部分使用视觉信息,背景对应部分使用DALL-E2Prior转化后的语言信息:
在隐空间中,Make-A-Protagonist将仅使用视觉信息的推理结果和经过特征融合的推理结果按照原视频的主角掩码进行融合:
通过特征空间和隐空间的信息融合,生成的结果更加真实,并且与视觉语言表述更加一致。
总结
Make-A-Protagonist引领了一种全新的视频编辑框架,充分利用了视觉和语言信息。
该框架为实现对视觉和语言的独立编辑提供了解决方案,通过多个专家网络对原视频、视觉和语言信息进行解析,并采用视频生成网络和基于掩码的采样策略将这些信息融合在一起。
Make-A-Protagonist展现了出色的视频编辑能力,可广泛应用于主角编辑、背景编辑和特定主角的文生视频任务。
Make-A-Protagonist的出现为视频编辑领域带来了新的可能性。它为用户创造了一个灵活且创新的工具,让他们能够以前所未有的方式编辑和塑造视频内容。
无论是专业编辑人员还是创意爱好者,都能够通过Make-A-Protagonist打造出独特而精彩的视觉作品。
参考资料:
hpythonttps://make-a-protagonist.github.io/
标签:
精彩推送
观热点:无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成
这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。随着扩散模型的
天天观速讯丨属相鼠男和属相狗女合适吗,属鼠的和属狗的配吗?女属鼠和男属狗配吗?
属鼠女和属狗男的婚姻相配吗?两人婚姻相配乃是属鼠五行之水。属狗五行主土,则土克水为财,两人相处愉悦,
新闻快讯
新闻快讯
- 观热点:无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成
- 欧盟讨论对乌军援战机 乌“战斗机联盟”浮出水面? 全球热议
- 环球快看:成交连降 北京二手房凉意加重
- 漂四声组词(漂四声组词有哪些)
- 天天观速讯丨属相鼠男和属相狗女合适吗,属鼠的和属狗的配吗?女属鼠和男属狗配吗?
- 小学实习工作总结和反思(必备5篇)-热资讯
- 鸡蛋馒头片的做法窍门(鸡蛋馒头片的做法)
- 5·25 我爱我|让阅读温暖那些阴郁的角落_全球速讯
- 我们相爱吧第一季(关于我们相爱吧第一季的基本详情介绍)
- 视障女孩踢馆惊艳汪峰郑钧:音乐能让我走进五彩缤纷的世界!-天天看点
- 蔚来es6是什么车_es6是什么车
- 国米卫冕国内两大杯赛,欧冠pk曼城冲击赛季三冠
- 腹中胎儿提前“发动”,普陀警医联手助母子平安
- 天天头条:当前动态:【全球新视野】【“亮成绩、展形象,二十大精神在支部”一线巡礼】擦亮农业底色,跑出振兴“加速度” 热点评|环球动态
- 肺淤血是什么意思?心电图和胸部X线片是什么意思?
- 应收款增加合理?宜通世纪年报遭问询,还面临股民索赔
- 餐馆不提供小份米饭 浪费食物被罚300元|为高中考护航 噪音污染联合执法检查启动|动态焦点
- 453.44亩!金山这个“城中村”改造项目通过认定!|热文
- 市国资委组织开展“让垃圾分类成为新时尚”主题宣传周活动 全球快播报
- 大成基金携手天天基金助力个人养老 ——“养老新基遇”投资高峰论坛在京召开-世界球精选
- 世界上最大的平原和高原分别是(世界上最大的平原是_ 最高的高原是_ 最大的高原是_ 最大的盆地是_) 当前关注
- 西单图书大厦营业时间(西单图书大厦)
- 中证转债指数早盘收跌0.32%,精测转债跌超3%,中钢转债、恩捷转债跌超2% 最新快讯
- 新纶新材盲孔OCA通过可靠性验证 实现量产供货|世界观焦点
- 【新要闻】法国兰蔻护肤品套装_法国兰蔻护肤品系列
- CBA3消息:新华社点名郭艾伦,易建联新职登热搜,周琦6字曝去向 视讯
- 最新快讯!红山区气象台发布雷电黄色预警[III级/较重] 【2023-05-24】
- 郑钧:周杰伦的歌没内涵,更适合初中生,一番话得罪半个“乐坛”-天天要闻
- 助力解决职工“带娃难” 家庭托育如何发力?
- 打卡电影小镇 感知文旅文创融合发展魅力
- 快讯:5月25日江西地区萤石市场价格暂稳
- 最新资讯:时光荏苒如白驹过隙 往事依稀若素月流空什么意思 时光荏苒如白驹过隙
- 动力源:5月24日融资买入133.3万元,融资融券余额1.01亿元_全球速看
- 全球热推荐:dpc中国联赛第三赛季 dpcwatchdogcviolation
- 扬州到镇江城市公交_从扬州到镇江的城际公交在扬州的哪儿坐
- 速读:最后的农民工(对于最后的农民工简单介绍)
- 长期喝水果麦片的好处(长期喝水果麦片有如下两大益处)
- 怀柔区2023上调养老金标准何时出?下半年每月养老金涨多少?
- 萌宝萌玉过生日隔壁萌兰馋坏了
- 横州市:坚持“三个突出” 推动乡村文化振兴
- 抖音《2023一季度安全透明度报告》发布 共治理不实信息视频158万条
- 地下室马桶污水提升器维修_地下室马桶污水提升器
- 风采与风彩的区别(“风采”和“风彩”的区别)_环球时讯
- *ST海投5月24日加速下跌|要闻
- 世界即时看!vivo手机换内屏要多少钱修_vivo手机换内屏多少钱
- 【时快讯】信息动态:Google新工具让您轻松找到适合您的对话的GIF
- 1899元 米家智能跑步机上架:降噪无刷电机、全跑道设计 动态焦点
- 超声波驱蚊器有用靠谱吗_超声波驱蚊器有用
- 关店1000家后,知名便利店再次“翻车”!
- 在尝试中成长600字优秀作文_在尝试中成长作文600字初中立意|环球速读