0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GTC 2023|Colossal-AI系统的数据并行优化方案

西西 来源:GTC 2023 作者:GTC 2023 2023-03-23 17:00 次阅读

Colossal-AI的改变:

从Colossal-AI的GitHub star数量中看出,这是衡量其开源社区的指标。与其它非常流行的开源系统(如Spark、 MongoDB等)相比,在相同时间内Colossal-AI使用增长速度是最快的。

世界上37个国家的用户正在使用Colossal-AI,还有各种其他人工智能生态系统使用Colsssal-AI。

Colsssal-AI的重要功能——N-Dim并行系统

这可以将你的复杂模型可用硬件上,以便最大化使用并行同时最小化通信

Colsssal-AI提供了完整的并行方法,包括数据并行、张量并行、流水线并行和序列并行,同时还有团队提出的2维、2.5维和3维张量并行以及序列并行。

其中优化了数据并行,可以让你以最小的损失在相当大的规换下训练模型。

大规模优化器如何优化数据并行

与单个GPU训练相比数据并行训练将整个数据集分为几个分区。

每个GPU拥有1个数据集分区,模型在每个GPU上复制,开在其本地数据集分区进行训练,在反向传播期间计算的梯度,被平均并用于更新模型副本,可以确保在不同GPU之间同步模型。

然而,简单的增加批次大小,通常会导致泛化性能下降并降低计算精度。为了解决这些问题,研究出一种新的方法,可扩展的大规模优化器LARS和LAMB,适合大批量设置。

在ViT模型和ImageNet数据集上对可扩展的大规模优化器LARS和LAMB进行理论分析。他们可最大程度使用GPU资源,将ViT-B/32的训练时间从一个GPU的73小时减少到200个GPU的0.68小时,并实现几乎线性增加的加速度,并保证收敛。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    3815

    浏览量

    125130
  • 英伟达
    +关注

    关注

    21

    文章

    2546

    浏览量

    86489
  • 深度学习
    +关注

    关注

    73

    文章

    4942

    浏览量

    119522
  • gtc
    gtc
    +关注

    关注

    0

    文章

    69

    浏览量

    4231
收藏 人收藏

    评论

    相关推荐

    arm系统并行计算优化

    并行优化的概念。另外arm本身还有另外一个优化的概念neon,我们在双路摄像头实现收拾识别中应用了这个技术,他的核心是neon提供一些多位寄存器可以将数据一次性读取多位,比如
    发表于 12-30 14:33

    【限时领取精美礼品】报名2022 GTC大会,与行业大咖探索 AI 前沿科技

    GTC大会主题演讲。NVIDIA GTC 大会不仅仅是一场变革性的 AI 开发者大会。这是一个独特的活动,大家齐心协力解决全球难题,发挥 AI 的强大功能,并重新定义未来发展
    发表于 03-18 11:06

    新思科技发布业界首款全栈式AI驱动型EDA解决方案Synopsys.ai

    方案可提供以下AI驱动的解决方案:数字化设计空间优化以实现功耗、性能和面积(PPA)目标,并提高生产效率。截至2023年1月,新思科技DSO.ai已助力
    发表于 04-03 16:03

    基于大规模序列比对软件的并行优化方案

    并行优化工作,提出一种基于大规模序列比对软件的并行优化方案。该方案对所要进行比对分析的大规模序列库按某种策
    发表于 03-29 09:43 17次下载

    翼伞发电系统的GPU并行轨迹优化_张利民

    系统的GPU并行轨迹优化_张利民
    发表于 01-08 12:03 0次下载

    DSP并行系统并行粒子群优化目标跟踪

    并行系统并行粒子群优化目标跟踪
    发表于 10-20 10:54 6次下载
    DSP<b>并行</b><b>系统</b>的<b>并行</b>粒子群<b>优化</b>目标跟踪

    NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程

    Colossal-AI 实现了通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式,更高效快速部署 AI 大模型训练与推理。
    的头像 发表于 10-19 09:39 977次阅读

    开源方案低成本复现ChatGPT流程,仅需1.6GB显存即可体验

    Colossal-AI 则能以更短时间进行训练,节省训练成本,加速产品迭代。为了让更多开发者体验复现 ChatGPT 模型,除 1750 亿参数版本外,Colossal-AI 还提供高效的单 GPU、单机 4/8 GPU 的类 ChatGPT 版本,以降低硬件限制。
    的头像 发表于 02-21 11:32 1165次阅读

    NVIDIA GTC 2023看点:AI计算系统、生成式AI 、工业元宇宙与机器人

    GTC 2023看点:AI 计算系统、生成式 AI 、工业元宇宙与机器人 GTC 2023 线上大会将于 3 月 20 日至 23 日举行,本届大会将举办超过 650 场由技术、商业
    的头像 发表于 03-22 13:42 858次阅读
    NVIDIA <b>GTC</b> <b>2023</b>看点:<b>AI</b>计算<b>系统</b>、生成式<b>AI</b> 、工业元宇宙与机器人

    NVIDIA GTC 2023:GPU算力是AI的必需品

    AI开始了爆走模式,现在我们来看看 NVIDIA GTC 2023 。 手握GPU算力的NVIDIA是AI的必需品。 图源  NVIDIA官网直播
    的头像 发表于 03-22 15:23 2689次阅读
    NVIDIA <b>GTC</b> <b>2023</b>:GPU算力是<b>AI</b>的必需品

    NVIDIA GTC 2023:摩尔定律的动力来源是AI

    GTC 2023:摩尔定律的动力来源是AI 在 NVIDIA GTC 2023上NVIDIA 创始人兼首席执行官黄仁勋的主题演讲中开篇就表示;现在的摩尔定律在成本和功耗不变的情况,性能
    的头像 发表于 03-22 16:48 1204次阅读
    NVIDIA <b>GTC</b> <b>2023</b>:摩尔定律的动力来源是<b>AI</b>

    英伟达 GTC 2023上黄仁勋谈生成式AI

    GTC 2023上黄仁勋谈生成式AI 黄教主在GTC 2023上大谈特谈生成式AI,同时在GTC 2023 上宣布了 NVIDIA AI Foundations 云服务及 NVIDIA
    的头像 发表于 03-22 17:14 1386次阅读
    英伟达 <b>GTC</b> <b>2023</b>上黄仁勋谈生成式<b>AI</b>

    GTC23 | AT&amp;T 使用 NVIDIA AI 全方位优化运营

    AI 来提高数据处理效率,优化服务车辆路线规划并创建数字孪生和虚拟形象 加利福尼亚州圣克拉拉 – GTC – 太平洋时间 2023 年 3 月 21 日
    的头像 发表于 03-23 06:55 216次阅读

    GTC 2023看点:深度学习系统Colossal-AI试图解决什么问题

    系统Colossal-AI使用户能够以大幅降低成本的方式最大限度地提高AI训练和推理的效率。它集成了高效的多维并行、异构内存管理、自适应任务调度等先进技术。
    的头像 发表于 03-23 16:03 3888次阅读
    <b>GTC</b> <b>2023</b>看点:深度学习<b>系统</b><b>Colossal-AI</b>试图解决什么问题

    GTC 2023:深度学习之张星并行和流水线并行

    并行和流水线并行技术通常被描述为模型并行,在开源社区中,最著名的两个系统是NVIDIA的Megatron- M和Microsoft的DeepSpeed。
    的头像 发表于 03-23 17:21 986次阅读
    <b>GTC</b> <b>2023</b>:深度学习之张星<b>并行</b>和流水线<b>并行</b>