最新公告
  • 自助下单 自动发货 58学课 欢迎您【客服QQ:260837161】
  • 七月在线视频生成Sora的原理与复现 | 持续更新 | 超清画质

    • 在线网盘 点击查看详情 购买后内容一样

    课程介绍

    自打2.16日OpenAl发布sora以来,不但把同时段Google发布的Gemini 1.5干没了声音,而且网上各个渠道,大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读,也引发了圈内外的大量关注,很多人因此认为,视频生成领域自此进入了大规模应用前夕,好比NLP领域中GPT3的发布
    且当我们扒出sora相关的10多篇论文之后,觉得sora和此前发布的视频生成模型有了质的飞跃(不只是一个60s),而是再次印证了大力出奇迹,大模型似乎可以在力大砖飞的情况下开始理解物理世界了,使得我司大模型项目组也愿意重新考虑开发视频生成的相关应用

    视频生成Sora的原理与复现可视化.png

    章节目录

    第一部分 理解sora的AI绘画基础与sora之前的视频生成发展史

    • 第一课图像生成发展起源:从VAE、VQ-VAE、扩散模型DDPM到ViT

      • 知识点1: 编码器VE与变分自编码器VAE、及其VQ-VAE
      • 知识点2: 扩散模型DDPM:先前向加噪后反向去噪从而建立噪声估计模型
      • 知识点3: Vision Transformer:用标准的Transformer直接干CV任务
    • 第二课 AI绘画原理解析:从CLIP、到DALLE/DALLE 2/DALLE 3、Stable Diffusion、SD3

      • 知识点1: CLIP:基于对比文本-图像对的预训练方法
      • 知识点2: 从DALLE到DALLE 2、DALLE 3
      • 知识点3: 通俗理解Stable Diffusion,及最新版SD3所采用的架构
    • 第三课 sora之前:从Gen2、Emu Video到PixelDance、SVD、Pika

      • 知识点1: 1.0视频生成的iPhone时刻:Runway先后发布Gen-1、Gen-2
      • 知识点2: Meta发布生成式视频模型:Emu Video
      • 知识点3: PixelDance:生成的视频极具动感
      • 知识点4: Stability AI发布生成式视频模型Stable Video Diffusion(SVD)
      • 知识点5: Pika Labs:推出电影特效级视频生成模型Pika 1.0

    第二部分 sora原理的全面解析

    • 第四课 OpenAI Sora的关键技术点

      • 知识点1: Sora的三大Transformer组件
      • 知识点2: 基于DALLE 3的重字幕技术:提升文本-视频数据质量
      • 知识点3: 对真实物理世界的模拟能力
    • 第五课 Sora相近技术(上):VideoGPT、ViViT、DiT、U-ViT

      • 知识点1: VideoGPT: 借鉴DALLE基于VQ-VAE和GPT自回归预测视频
      • 知识点2: 视频Transformer之ViViT:视频元素token化且时空编码(没加扩散过程、没带文本条件融合)
      • 知识点3: VAE之改进TECO:超长视频一致性的解决方案
      • 知识点4: DiT(含U-ViT):将扩散过程中的U-Net 换成ViT(2D图像生成,带文本条件融合)
    • 第六课 Sora相近技术(中):从与sora最接近架构VDT到NaViT

      • 知识点1: VDT:基于扩散的视频生成中首次使用Transformer(与sora架构最接近)
      • 知识点2: NaViT:多个patches打包成一个单一序列以实现可变分辨率
    • 第七课 sora相近技术(下):MAGVIT v2、W.A.L.T、VideoPoet

      • 知识点1: MAGVIT v2:用好tokenizer可以超越diffusion
      • 知识点2: W.A.L.T:将Transformer用于扩散模型
      • 知识点3: Google VideoPoet:基于MAGVIT V2和Transformer而来
    • 第八课 对sora技术报告的32个reference的总结分析

    第三阶段 现有Sora的复现方案与代码分析

    • 第九课 Sora爆火之前,上海人工智能实验室一团队推出Latte

      • 知识点1: 整体流程:输入、主干网络(Latte的4种变体)、输出
      • 知识点2: 视频 patch embedding、Timestep-class 信息融入、空间位置 embedding、学习策略
      • 实战项目: Latte核心代码剖析
    • 第十课 Colossal-AI团队推出基于STDiT架构的类Sora模型Open-Sora 1.0

      • 知识点1: Open-sora 1.0的架构设计
      • 知识点2: 训练复现方案:类似SVD的三阶段训练与数据预处理
      • 知识点3: Open-Sora 1.0核心代码剖析

    第四部分 如何从零开始复现一个缩略版的sora

    • 第十一课 复现架构选择:基于VDT还是SVD + SD3的结构

    • 第十二课 对可变长宽比、可变分辨率、可变时长的实现/实战

    • 第十三课 数据处理:如何提高文本-视频数据集的质量/实战

    • 第十四课 最后的整体整合/实战

    每天成长一点点,要比别人快一步
    58学课 » 七月在线视频生成Sora的原理与复现 | 持续更新 | 超清画质

    常见问题FAQ

    如何下单?如何下载?
    ->> 点击查看 自助下单,自动发货,下单后,页面会自动刷新,显示百度网盘地址
    如何查看下单后的内容?
    在线网盘 点击查看详情 下单后内容一样
    本站不议价 !
    本站不议价,不支持无理由退换,看清楚再下单
    更多常见问题?
    ->> 点击查看

    发表回复

    Hi, 如果你对这个资源有疑问,可以跟我联系哦!

    联系客服
    • 13203会员总数(位)
    • 5258资源总数(个)
    • 75本周发布(个)
    • 1 今日发布(个)
    • 1509稳定运行(天)

    自助下单 自动发货 58学课 欢迎您

    加入我们