长篇社会家庭伦理小说 腾讯混元又又又开源了,此次思复刻一个文生视频领域的Flux?

  • 首页
  • fss 露出
  • twitter 露出
  • パナソニック 分電盤 大形リミッタースペース付 露出・半埋込両用形
  • 露出 同人
  • 阿朱 露出
  • 人前 露出
  • 你的位置:日本美女 > 阿朱 露出 > 长篇社会家庭伦理小说 腾讯混元又又又开源了,此次思复刻一个文生视频领域的Flux?
    长篇社会家庭伦理小说 腾讯混元又又又开源了,此次思复刻一个文生视频领域的Flux?
    发布日期:2024-12-10 12:51    点击次数:55

    长篇社会家庭伦理小说 腾讯混元又又又开源了,此次思复刻一个文生视频领域的Flux?

    腾讯混元大模子又开源了长篇社会家庭伦理小说,此次是文生视频模子。

    自 OpenAI 发布 Sora 演示视频以来,要作念中国版 Sora 的声息从未住手过。在国内,大厂和创业公司都纷纷推出了我方的视频生成模子:快手的可灵、MiniMax 的海螺、生数的 Vidu 以及智谱的 CogVideoX 等,都获取了许多拓荒者和用户的祥和和使用。在这个竞争浓烈的赛说念上,当今他们又多了一个采选:腾讯混元文生视频大模子(Hunyuan-Video),腾讯混元大模子在 12 月 3 日崇拜上线视频生成才调。

    ai换脸刘涛

    相似迫切的是开源。Hunyuan-Video 已在 Hugging Face 平台及 Github 上发布,包含模子权重、推理代码、模子算法等完好模子,可供企业与个东说念主拓荒者免费使用和拓荒生态插件。此前,腾讯混元已开源了旗下文生文、文生图和 3D 生成大模子。据腾讯混元联系负责东说念主先容,后续还有图生视频模子、视频配音与配乐、驱动 2D 相片数字东说念主技巧的开源计较。

    Hunyuan-video 的参数目为 130 亿,官方放出的样片长这么:

    HunYuan-Video 的技巧架构与窜改特质

    赈济图像与视频生成架构

    HunyuanVideo 使用了基于 Transformer 的全拦截力机制,用于视频生成。并能竣当事人体一致的多视角镜头切换。与"分离的时空拦截力机制"永诀关防卫频中的空间特征和时刻特征,比较之下,全拦截力机制则更像一个纯视频模子。

    它接收"双流到单流"的搀杂模子架构,大概在交融之前永诀处理视频和文本的特征信息,从而竣事更高效的多模态信息交融。

    双流到单流模子是指机器学习中的一个框架,相等是在多模态数据处理的布景下,其中两股寂然的数据流(如文本和图像)领先永诀处理,然后归并成一股单一流进行进一步分析或生成。

    MLLM Text Encoder MLLM

    HunYuan-Video 使用具有解码器结构的预现实多模态大型说话模子 ( MLLM ) 行为文本编码器。这一贪图增强了图文对皆才调,并提拔了模子处理复杂指示的才调。同期长篇社会家庭伦理小说,它引入了一个双向特征优化器(bidirectional token refiner)来增强文本特征。

    3D VAE 压缩

    HunYuan-Video 引入了 3D 风物变分自编码器(VAE),将视频压缩到潜在空间,大幅减少后续处理所需的 token 数目。这使得模子大概在原始分辨率和帧率下进行现实,同期优化了性能和服从。使得视频生成模子在细节发扬上,相等是常人脸、高速镜头等场景有昭彰提拔。

    教导重写模子

    Hunyuan-Video 还配备了一个教导优化模子(Prompt Rewrite Model),用于调理用户输入的教导词,使其更顺应模子的偏好。该模子提供两种款式:凡俗款式侧重于知晓用户意图,而各人款式则强化视觉质料,包括画面构图和光影恶果等方面的发扬。

    目标与性能

    在千题盲测的定量分析中,Hunyuan-Video 与包括 Gne3 和 Luma 在内的前五名闭源模子进行了比较,在 60 多名专科评估东说念主员评估后,HunyuanVideo 在详细目标上发扬最佳,相等是在畅通质料方面发扬较为隆起。

    运行 Hunyuan-Video 模子使用文本生成视频的推选树立需要 45GB 的 GPU 内存。

    要扛起开源文生视频的大旗?

    腾讯混元多模态生成技巧负责东说念主凯撒在发布现场示意,文生视频领域现时存在"抽卡概率"的问题,凡俗用户大多处于尝鲜情状,且现时开源闭源"存在较大的 GAP ","这亦然咱们为什么开源"。

    他屡次提到 Black Forest Labs 旗下 Flux 的开源款式。Flux 通过开源基础模子构建拓荒者生态,同期保留买卖版块守护竞争力,已获取包括 Andreessen Horowitz 的知名投资机构的投资。

    Flux 通过开源政策与 MidJourney 竞争,依托其机动的社区参与机制、宽敞的定制化才调以及对用户指示的高精度反应。比较 MidJourney 的闭源运营,Flux.1 的开源特质招引拓荒者共同优化模子。开源也让 Flux.1 更容易被个东说念主和袖珍团队接收,从而扩大用户基数。这一款式聚积强社区复古,为开源生态带来了长尾效应,挑战了 MidJourney 的市集主导地位。

    "文生图的发展,社区给了很大的力量,好多优秀的底模出来之后学术界、好多东说念主都不错玩起来,作念插件、作念优化,而不是几家闭门觅句。"

    举例,Hunyuan-video 推选树立至少需要 45GB 的 GPU 内存,这关于凡俗拓荒者而言门槛仍然偏高,但社区的力量迫害小觑。另一个开源视频模子 Mochi 1 需要 4 个 H100 才能保证服从和输出恶果,而发布之后,社区就启动尝试处理在显存更低的缔造运行 Mochi 1,并拓荒 ComfyUI 插件。多量拓荒者提供了过程优化的插件,如动漫作风视频调理器具和低显存复古模块,进一步镌汰了使用门槛。

    Mochi 已复古在 ComfyUI 中使用耗尽级 GPU 运行

    固然,要让文生视频技巧熟识,还需攻克一些客不雅繁难。"高质料数据已经挺缺的。"

    此外,现实视频生成模子绕不开的仍然是算力资本,举例,Meta 的 Movie Gen 使用了多达 6144 个 H100 GPU 进行现实,资本昂贵。

    买卖款式方面,Flux 通过提供付费 API 和用于买卖愚弄的闭源模子来构建的买卖款式。参考 Flux 的作念法,Hunyuan-Video 将来也不错通过 API 等风物提供更高质料的办事。现时,Hunyuan-Video 暂时莫得买卖化的动作,用户不错在腾讯元宝 APP 免费使用 Hunyuan-Video 的文生视频功能。

    "咱们先站出来,搞一个跟闭源水平差未几的模子,给公共用起来",凯撒示意,"但愿跟社区沿途把咱们的技巧早日推向图像生成领域一样的情状"。

    他同期示意从混元举座技巧栈的逻辑开拔,作念视频模子是其必经之路,"最终便是唯有一个 Model "。

    不管若何,在 Meta 发布 Movie Gen 后并未说起任何开源事宜的情况下,沟通到视频生成模子的现实资本和难度,Hunyuan-Video 的出现无疑是开源社区但愿看到的事情。

    类比 SD长篇社会家庭伦理小说,文生视频当今处于雷同 SD1.5 的情状,接下来就看 Hunyuan-Video 能否进化到下一个阶段了。