论坛风格切换
正版合作和侵权请联系 sd173@foxmail.com
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 119阅读
  • 0回复

[业界新闻]微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸" [复制链接]

上一主题 下一主题
 

发帖
6718
今日发帖
最后登录
2024-11-14
只看楼主 倒序阅读 使用道具 楼主  发表于: 2024-04-19 10:44:01
  微软公司的一篇新的人工智能研究论文展望了未来:上传一张照片和你的声音样本,然后创建一个活灵活现的会说话的人头像。这种名叫VASA-1的人工智能模型可接收单张人像照片和音频文件,并将其转换成超逼真的人脸视频,包括唇语同步、逼真的面部特征和头部动作。 hp@F\9j  
+3Z+#nGtk  
  该模型目前只是研究预览版,微软研究团队以外的任何人都无法试用,但演示视频看起来令人印象深刻。 S2>$S^[U  
JA4}B wn  
  Runway和NVIDIA已经推出了类似的唇部同步和头部运动技术,但这种技术的质量和逼真度似乎要高得多,可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER人工智能模型类似。 3 6t^iV*3  
* bUOd'vh  
  VASA-1如何工作? 6VLo4bq 5  
m@2=v q1f  
  微软表示,这是一个新的框架,用于创建栩栩如生的会说话的人脸,专门用于虚拟人物的动画制作。示例中的所有人物都是合成的,是用DALL-E制作的,但如果它能为逼真的人工智能图像制作动画,那么它也能为真实的照片制作动画。 gZ8JfA_\R(  
m$7C{Mr'  
  在演示中,我们看到人们说话时就像在被拍摄一样,动作略显生涩,但看起来非常自然。唇语同步令人印象深刻,动作自然,嘴部上下没有其他工具中出现的假象。 @U9`V&])F[  
J[c`Qq:&e  
  VASA-1最令人印象深刻的一点似乎是,它不需要正面朝上的人像图像就能工作。 ,.0B0Y-X  
|Qn>K   
  其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力,能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。 \"w+4}  
PbFbi hg  
  VASA-1的意义何在? G++<r7;x  
tlB -s;  
  其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的NPC,就能改变游戏的沉浸感。 t%Bh'HkG  
%,e,KcP'  
  它还可用于为社交媒体视频创建虚拟化身,HeyGen和Synthesia等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。 gw^W6v  
Q\N >W+d  
  尽管如此,该团队表示,这只是一次研究演示,并没有公开发布的计划,甚至也不会提供给开发人员在产品中使用。 u=Xpu,q  
! Y&]Y G  
  VASA-1的效果如何? u?F.%j-  
3*\hGt,ZP  
  让研究人员感到惊讶的是,VASA-1能够完美地对歌曲进行歌词嘴型同步,尽管训练数据集中没有使用音乐,但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像,包括蒙娜丽莎。 (G(M"S SC  
fYpJ2y-sA  
  他们让它以每秒45帧的速度创建512x512像素的图像,使用桌面级NVIDIA RTX 4090 GPU可在大约2分钟内完成。 KtArV  
#g'j0N  
  虽然他们说这只是用于研究,但如果它不能进入公共领域,那就太可惜了,即使只是面向开发者,鉴于微软在OpenAI中拥有巨大的股份,这甚至可能成为未来Copilot Sora集成的一部分。 g:@4/+TSt