AIGC本周前沿 2023年12月1刊
date
Dec 7, 2023
slug
aigcweekly20231201
status
Published
tags
DeepLearning
papers
Exploring
summary
AIGC本周前沿 2023年12月1刊
type
Post
AIGC本周前沿 2023年12月1刊
2023.12.2 微软团队推出GAIA
Demo link:
Code link: 无
Paper link: https://arxiv.org/pdf/2311.15230.pdf
一句总结:使用音频、视频驱动单张图片生成视频(Talking Avatar Generation),模型接受人脸输入,视频、音频、情感驱动。效果好于SadTalker (目前我们使用的一种模型)
可用度:生成半身视频可用。特点是zeroshot,泛化性有保障,对人脸部分的重建效果比较好。
2023.11.30 阿里团队推出 Animate Anyone
Demo Link: https://humanaigc.github.io/animate-anyone/
Code link: 无
Paper link: https://arxiv.org/pdf/2311.17117.pdf
Video:

一句总结:在生成人物视频时使用Openpose进行指导,模型接受全身人像与人物姿态序列输入(openpose),生成符合姿态动作的人像视频。
可用度:姿态可控,从demo看对人脸的部分没有做openpose,更多关注在人物总体姿态。
2023.12.5 字节团队推出MagicAnimate
Demo link:
Paper link: https://arxiv.org/pdf/2311.16498.pdf
Hugging Face体验: https://huggingface.co/spaces/zcxu-eric/magicanimate
一句总结:与阿里团队Animate Anyone的目标一致,输入不同,输入为一张参考图+DensePose格式的 Motion Sequence(如果没有的话,需要使用额外模型对视频进行转换)https://github.com/facebookresearch/detectron2/tree/main/projects/DensePose
进度:这个项目开源了代码,尝试用demo提供的Motion Sequence来做了一次inference,效果不及预期,其对人脸的重建效果很差,等GAIA开源后可以尝试将二者结合。
Azure发布Personal Voice 声音克隆与翻译服务2023.12.1起可用
Demo link:
Video: https://youtu.be/Aj_Jb2moFNQ