阿里整大活，一张照片让“TA”给你跳“科目三”

首页 > 科技正文

时间：2024-01-08 来源：互联网

如果回忆过去一年最让人印象深刻的科技事件或现象，那 AI 得是数一数二的。

AIGC 大模型的火热，让我们每个普通人都切身感受到了 AI 的神奇魔力。不说别的，就大家在刷微博刷抖音时，也一定越来越频繁会看到由 AI 创作的奇妙图片、视频。

这不，最近又有一个 AI 大模型火出圈了。

上传一张真人的，或动漫卡通的人物照片，就能免费生成一段这个人物舞蹈的视频，听起来是不是就很有趣？

就是这样一个有趣的大模型，前段时间在推特、Youtube 等海外社交媒体平台得到爆炸式传播。比如推特大 V Dreaming Tulpa 一条由多位网红、模特照片生成的跳舞视频，小编写稿时单条视频已经有5060 万的播放量！

每一个模特跳舞的动作都十分自然，几乎可以乱真。而且看到他们从静止突然变成“妖娆多姿”，魔性又喜感。

海外老铁们一边赞不绝口，一边求体验入口。

然后，我们就看到各路大 V 也纷纷开始转发，各种花活应接不暇。

比如让梅球王摆各种 Pose；

蒙娜丽莎魔性起舞；

还有各路明星也“惨遭毒手”……

其实，这个功能的背后，就是国内阿里巴巴自研的视频生成模型 Animate Anyone。

早在去年 11 月底，该研究论文便已经在海外爆火，相关视频播放量超 1 亿，Github 上的 Star 数超 1 万，还登上了Reddit 社区 Stable Diffusion 频道热度第一。

Animate Anyone，显然已经成为目前最受欢迎的大模型项目之一。

看到大家分享的有趣视频，小编也忍不住做了体验。

其实体验的方法很简单，这个功能已经在这两天集成到阿里云通义千问 App 中了。下载通义千问 App，然后在输入框里输入“通义舞王”或“全民舞王”等关键词，就能直接进入体验页面。

通义千问首批为用户提供了10 多种热门舞蹈模板，包括科目三、蒙古舞、鬼步舞等等。

小编就选最近很火的“科目三”吧，点击进入后需要按要求上传一张照片。这里小编找来一张游戏人物的卡通照，符合要求，点立即生成就可以了。

然后会进入等待生成的界面，上面提示要 15 分钟，但实际等待没那么久，大概十分钟就可以了。视频生成后，你可以选择分享或下载、点赞等操作。

大家看游戏里小姐姐跳舞的视频，神形兼备，关键是游戏角色穿的是拖沓的长袍，生成跳舞视频后需要对衣服的形态进行模拟，从结果来看，很自然，衣服没有出现穿帮。

接着小编又用自己的真人照片测试了“鬼舞步”的跳舞模式，同样是很自然，很好地保留了原来的面部表情、身材比例、背景等特征。

可以看到，如果说有趣是 Animate Anyone 能火出圈的关键，那功能体验简单顺滑、效果自然，就是“火出圈”更底层的保证。

那么 Animate Anyone 是如何做到这一切的？在技术上有什么独到之处？

相信很多朋友都体验过用 AI 大模型生成文字、生成图片，效果都不错。但能生成视频，并且效果体验还好的，属实不多。

究其原因，还是因为视频生成太难了，特别是人物动作视频的生成：

形象一致性难保持；
动作流畅度难把控；
动态时序很难无瑕疵；
推理等待时间长。

总之，人物是视频生成中的核心元素，也是核心难点，目前像谷歌、Meta、Runway 等巨头都在积极布局，解决这些困难，也确实诞生了一些方法来化解挑战。阿里研究团队的 Animate Anyone 算法，也就是在这种背景下研发出来的。

整体来看，Animate Anyone 算法从一致性、可控性、和稳定性三方面保证了视频的效果。

例如，它引入 ReferenceNet，用于捕捉和保留原图像信息，可高度还原人物、表情及服装细节；同时使用了一个高效的 Pose Guider 姿态引导器，保证了动作的精准可控；另外，还通过时序生成模块，有效保证视频帧间的连贯流畅性。

根据评测集结果显示，Animate Anyone 的性能表现是要显著优于国内外同类模型的。

目前市面上类似的专注人的视频生成主要有两种：

一种是用人体 mask 来控制视频生成，人体会变形到 mask 的形状，无法保持照片中人的比例；

另一种是基于视频的重绘，只保留了人脸的信息，身体、服装、背景都不保留。

两种显然都有一定的瑕疵，而Animate Anyone 是完整的保留了人脸、身材比例、服装细节、背景信息，能更好的还原图片信息。

而且，相比 Gen2、Pika 等文本生成视频的产品，Animate Anyone 可以更聚焦到人的视频生成。可以对生成的动作做精准控制，且在技术上生成的视频长度不受限制。

由此可见，Animate Anyone 在算法上确实具备相当的领先性，特别是在人物一致性和画面稳定性上表现极佳，一改当下很多视频生成画面局部扭曲、细节模糊、抖动跳帧等问题。

并且，这项技术未来可能还会有更广泛的应用场景，包括各种图生视频的应用，还有在线零售、娱乐视频、影视、艺术创作和虚拟角色创建等等，想象空间很大。

而这些背后，显然是阿里大模型团队研发能力的又一次例证。

值得一提的是，最近他们还推出了一款一键试衣的模型，Outfit Anyone，仅仅依靠服饰的平铺图，就可以实现上下装的试穿。

从效果看，这个模型不仅能保证人物本身脸部的 ID，并且通过 3D 和 2D 技术的结合，确保模特姿势、身材等信息的还原，在此基础上，针对任意的单件上 / 下服饰、上和下组合套装等服饰进行直接试衣穿搭。

试想，这个技术如果应用普及了，以后我们在网上买衣服，岂不再也不用为合不合适发愁了？一键虚拟试衣，简直爽歪啊。

无疑，这又是阿里云通义大模型生态下的一次杰作。

要知道，阿里云早在 2019 你那就投入到了大模型的研究中，得益于阿里云领先的基础设施，以及深厚的大模型研发经验，他们在自研大模型及大模型生态的构建上很早就处于业界领先地位。

从去年 4 月，“通义千问”开始邀请用户测试体验开始，通义大模型家族就马不停蹄地开启自我完善之路。

6 月，聚焦音视频内容的大模型产品“通义听悟”上线；

7 月，AI 绘画创作大模型通义万相开启定向邀测；

10 月，智能编码助手通义灵码、AI 阅读助手通义智文、个性化角色创作平台通义星尘、智能投研助手通义点金、智能客服通义晓蜜等一系列行业模型先后上线。

短短几个月，通义大模型家族就不断丰富，并全面覆盖了文本、语音及图像等模态。

目前，通义千问 App 已经可提供文本对话、语音对话、翻译、PPT 大纲助手、小红书文案、视频生成等几十项功能。

而在技术能力上，阿里自研大模型已获得诸多权威机构的认可。

IDC 发布的 AI 大模型评估报告显示，通义千问在全部 11 项测试中获得通用能力、创新能力、服务能力、平台能力、生态合作等 6 项满分，名列前茅。

12 月 22 日，国内首个官方“大模型标准符合性评测”结果公布，阿里云通义千问成为首批通过评测的四款国产大模型之一，在通用性、智能性等维度均达到国家相关标准要求。

不仅如此，阿里云还通过开源研究成果的方式，积极促进大模型生态的繁荣。

他们是国内首个开源大模型的大型科技公司。截至目前，阿里云已开源通义千问 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型，以及视觉理解 Qwen-VL、音频理解 Qwen-Audio 的 2 款多模态大模型，进一步降低了大模型初创公司的研发门槛。

阿里云甚至还推出了一站式大模型应用开发平台，阿里云百炼，开发者可在 5 分钟内开发一款大模型应用，几小时即可“炼”出一个企业专属模型。这么做，就是为了让开发生态把更多精力专注于应用创新。

值得一提的是，除了通义大模型，目前中国一半大模型都跑在阿里云上，像百川智能、智谱 AI、零一万物、昆仑万维等等，这主要得益于阿里云人工智能平台 PAI 提供的全球领先的训练性能和高效的算力资源。

拥有如此强大领先的基础设施算力底座、丰富且开源的产品、完善的工具链和智能化平台、以及开放创新的生态，通义大模型能够持续诞生出 Animate Anyone、Outfit Anyone 这样奇妙的应用并风靡全球，也就在意料之中了。

而目前，大模型技术还在迅速发展，智能化时代也正快速到来，相信长在阿里云上的通义大模型会持续推动应用的落地和创新，推动大模型成熟应用规模化的进程，而我们的生活，也会因为这些应用而深刻改变。