起首:机器之心Pro足球投注app
作家:杜伟
在电影《寰球无贼》中,葛优饰演的黎叔有这么一句经典的台词,「二十一生纪什么最贵?东说念主才!」而跟着东说念主工智能行业投入到大模子时间,这一问题的谜底决然变成了「算力」。
跟着模子范畴急剧延伸,参数照旧飙升到了千亿以致万亿级,业界开启了千模大战,AI 算力需求不可幸免迎来爆炸式增长,不论是前期西席照旧后期推理,都是如斯。
在西席层面,OpenAI 曾在 2018 年作念过估算,自 2012 年以来,AI 模子西席算力需求每 3.5 个月翻一番,每年所需算力增幅高达 10 倍,增速远远超出了芯片产业始终存在的摩尔定律(性能每 18 个月翻一番)。同期跟着大模子及应用越来越多地部署到企业实质业务场景中,推理算力需求也水长船高。
因此,指数级增长的算力需求对 GPU 等硬件提议了更高条件,大范畴 GPU 算力集群成为例必选拔。这亦然为什么频年来国表里科技厂商纷繁布局 AI 算力基础设施,死磕万卡以致 10 万卡集群。此外,大范畴算力集群也越来越突显训推一体的迫切性,寻求在统一个集群中无缝切换大模子的西席和推理,简化用户部署进程。
诚然 GPU 集群不错自豪大模子时间的算力需求,但靠近的挑战也不少,比如多类型芯片搀杂西席、数据中心电力破钞、网罗通讯和负载、单卡算力效率、多卡并行计较、设施褂讪性等。加之刻下集群算力应用率不高且老本高亢,这些都条件厂商在集群系统、框架和算法层面进行时间冲破。
国内一些厂商照旧在面向万卡集群的 AI 基础设施方面积贮了丰富的教养,并催生了障翳庸俗的「多芯搀杂西席时间」。咱们以百度为例,其基于文心大模子西席的教养千里淀,推出了 AI 异构计较平台「百舸」,打造业界卓越的多芯搀杂西席 AI 集群,并正在匡助客户更快、更稳、更省地落地大模子应用。
从 2021 年的 1.0 版块到旧年的 3.0 版块,咱们发现,集合三年,百舸围绕系统性普及 GPU 集群的全体算力应用率按捺深远优化。在当天举办的 2024 百度云智大会上,再度升级的百舸 4.0 带给了客户更多惊喜,也给同业们带来了少量小小的震荡。
算力虚耗降至 1/10
万卡集群下的大模子训推更快、更省
关于国内云厂商来说,面对 AI 大模子时间的巨量算力需求,九九归一要处罚好两个中枢诉求:一是如安在算力资源供应缺少的大环境下扩大算力起首,二是如安在大模子产生的高亢计较老本压力下极致高效地应用算力。从已有进展来看,百舸 AI 异构计较平台作念到了「两手捏、两手都要硬」。
在旧年 12 月的 2023 百度云智大会・智算大会上,百舸 3.0 照旧展现了业界卓越的万卡集群算力开释武艺,集群灵验西席时长达到了 98%、网罗带宽灵验应用率达到了 95%。如今,9 个多月夙昔了,百舸 4.0「百丈竿头更进一步」,在一些集群算力预备上又有所普及。
这次,百舸 4.0 在全体架构上相较 3.0 版块有了稍稍调养,从底层硬件往上次序分为资源层、组件层、大模子加速层和器具层。四层架构,各司其职,针对大模子的训推、部署和调优等全进程进一步优化。
具体来讲,资源层提供了包括异构芯片、高速互联、高效存储等在内的算力资源,组件层主要处罚大范畴集群的褂讪性和性能问题,大模子加速层专为大模子训推提速而想象,器具层则通过一套管理界面提供了更浅近的操作体验。
百度集团施行副总裁、百度智能云行状群总裁沈抖
依托四层架构,百舸 4.0 对集群算力调用的各个要领作念到了精确把控,并具备了「多、快、稳、省」四大特点,形成了其算作 AI 异构计较平台的中枢竞争力。
领先是多芯异构。咱们不雅察到,一云多芯照旧成为算力集群的主流选拔,既不错屏蔽硬件之间的互异,应用弹性更强的供应链体系开脱对单一芯片的依赖;又大致左证用户特定业务场景纯真调配算力资源并提高应用率。
百舸 4.0 构建了 GPU 和多类型 AI 芯片构成的单一智算集群,兼容了昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国表里主流 AI 芯片的搀杂西席,并全面适配。同期通过「死心台」简易一键发起,易用性很高。百舸 4.0 还通过大模子训推加速套件 AIAK 赞助了更多使用场景、多种模子架构和主流训推花式,万能属性拉满。
天然,关于不同范畴的多芯搀杂西席任务,百舸 4.0 将性能蚀本拉到业界最低,其中百卡性能蚀本死心在 3%,万卡性能蚀本在 5% 以内。
若是说多芯混训是走出算力卡脖子的关节一步,那么接下来就要集结元气心灵研究若何围绕集群部署、大模子训推和成果调优来更充分地开释万卡集群的算力潜能。
当今,百舸 4.0 匡助客户省去了多数复杂和琐碎实在立和调试使命,最快 1 小时便能创建万卡范畴集群,这要比行业平方需要的数天以致数周快得多。
然后便又是 AIAK 进展了用武之地,针对主流开源大模子在并行战略、显存、算力等层面进行了深度优化,为万卡集群下的大模子训推加速注入新的驱能源。
一方面,百舸 4.0 在大模子加速层全新升级了 AIAK 西席加速,万卡集群下赞助万亿参数 MoE 模子西席。不仅如斯,单个芯片的效用也进展到了极致,合营使用优化后的通讯和并行战略,全体西席效率普及了 30%。这些都预示着集群实力的大增。
另一方面,百舸 4.0 相通升级了 AIAK 推理加速,尤其在速率和老本两个客户最柔和的方面加码,成果较以往版块有了质的普及。关于长文本推理任务,模子如今不错作念到「极速生成」与「秒回」,效率普及了一倍。同期,投契式推理战略的引入不错先让老本低的小模子生成多个预选末端,然后交给老本高的大模子考证并给出最收场尾,从而调遣更多低廉的小模子来承担计较职守,由此责难了老本。
天然实质初始中需要面对数据清洗、生成、相貌对皆等重叠性使命,百舸 4.0 具备的数据工程武艺不错调用大模子来处理这些使命。此外提供了数据增强、成果评估和 Prompt 优化等功能,以便进一措施优。
大模子调用全进程尤其是西席阶段不只单条件速率快,褂讪性相通迫切。若是一个集群无法保证褂讪的西席时长,易出错、难纠错、会诊慢、规复时候长,则会对全体效率和老本形成不利影响。面前,百舸 4.0 在万卡范畴 AI 任务上的灵验西席时长占比照旧达到 99.5%,这意味着不菲的计较资源不错得到最大化应用,虚耗更少,老本效益更高。
临了,算力资源应用率的上下一定进程上决定了集群能不可为客户省钱,刻下行业平均水平仅能达到 50%,一半的算力被虚耗了。借助自研的训推一体时间,百舸 4.0 让集群同期赞助在线推理办事部署和离线西席任务,训推之间的算力解放切换,训推场景在不同期间复用调换的 GPU 资源,并在推理时将高算力高显存的西席卡分拨给多个业务应用,最终将算力资源应用率普及到了 90%。
不错说,从赞助多芯混训到加速大模子训推、靠拢 100% 的灵验西席时长和远超行业的算力资源应用率,百舸 4.0 交出了一份亮眼的「成绩单」,为客户刻下的大模子落地践诺尽最大可能撤废算力层面的黄雀伺蝉,例必更能取得他们的可爱。
背后的蹊径想考
五大维度完成算力破局
如安在大模子时间进展出大集群的灵验算力,这是一个枢纽而急迫的命题。刻下有武艺提供万卡集群的云厂商都在力求脱颖而出,这就条件他们在优化架构、责难老本、提供互异化办事、构建智算生态等各个方面出击,找到算力破局关节点。
全新升级的百舸 4.0,提供了刻下万卡集群的最优解。
咱们发现,百舸照旧形成我方的一套纯熟移交,针对能耗灵验率、单卡算力灵验率、并行扩展灵验率、灵验西席时长和资源应用率等五大行业痛点问题,一语说念破,用时间冲破为算力开释添砖加瓦。
针对大模子西席产生的宏大电力破钞,百度云通过在自建的数据中心采选自研的液冷决议,使得机器性能普及 10% 的同期故障率责难了 60%-70%,从而令数据中心能源效率预备 PUE(Power Usage Effectiveness)平均值小于 1.1,优于业界平均水平。
为了普及集群内单卡算力灵验率,百舸 4.0 依托 AIAK 西席加速决议,通过显卡、算力等层面的深度优化,在主流开源大模子西席任务中将 GPU 灵验应用率 MFU(Model FLOPS Utilization)普及到了行业卓越水平,达到 70% 以上。
单卡算力效用极致「压榨」的同期,多卡并行计较效率也要跟上。现阶段大模子时常采选多个计较资源同期西席的并行花式,并发展出了计较资源应用率高、效率高、开导难度小的自动并行战略,使西席任务在多个计较单位上的分拨更为合理和高效。百舸 4.0 通过 AIAK 进一步优化了并行战略,较开源决议完结了 30% 的性能普及。同期模子并行战略调优时候也大幅责难,从小时级裁汰至如今的分钟级,加速了西席和优化速率。
此外如上所述,百舸 4.0 在万卡任务上完结了 99.5% 的灵验西席时长,最猛进程幸免因经常故障而导致的西席任务中断、资源虚耗、模子防守速率慢、运维老本加多等问题,集群褂讪性得到前所未有地加强。达成这一成果主要收获于以下几大武艺的共同加持:
全倡导的可不雅测武艺,对资源池、队伍、节点、任务、实例、加速卡等多个维度完结了无死角的障翳。自动容错武艺,百舸 Flash Checkpoint 故障规复机制完结秒级 Checkpoint 和近乎无损的 Step 粒度容错。此外为 PyTorch 大模子西席场景开导的 Checkpoint 框架 FlashCKPT 不错完结 1 秒千亿大模子 Checkpoint 写入。故障会诊和快速规复武艺,通过快速筛查、调回集群硬件故障并搅扰自愈,幸免在故障芯片上分拨使命负载,灵验责难任务故障发生频次。故障规复时候从小时级降至分钟级。百舸集群级集结通讯库 BCCL 不仅不错在故障发生时作念到秒级感知和定位,提高故障处理效率。同期快速定位西席慢的节点,普及全体西席效率。
相通地,百舸 4.0 算力资源应用率冲破 90%,除了自研的训推一体时间,还要归功于弹性伸缩机制、弹性层级队伍等时间,不错左证西席任务的变化来自动分拨和布局算力,从而将应用率拉到了行业最高水平。
在咱们看来,五大维度不仅赋闲了百舸 4.0 在万卡集群时间的行业卓越地位,也为其他云厂商在算力资源管理以及智算集群的想象、调度、容错等方面提供了一定的模仿。
写在临了
本年 9 月初,马斯克晓示旗下 xAI 打造的由 10 万块 Nvidia H100 构成的超等西席集群 Colossus 认真上线,并将在改日几个月另外加多 10 万块 GPU(一半为 H200)。这开释出了一种很明显的信号:不啻万卡,更大范畴的 10 万、数十万卡集群的设立「争分夺秒」。
不错看到,不论是为现阶段超大范畴模子的西席提供算力撑持,照旧股东大模子时间的进一步落地普及、以及加速改日 AGI 时间的更快到来,集群的作用似乎照旧无可取代,关于企业依托大模子的智能化转型也至关迫切。
明显,百度早在 2021 年就意志到了这少量,通过全倡导布局百舸 AI 异构计较平台来设立大模子时间的 AI 基础设施,并在算力、通讯、能效等方面的连续优化中构筑起更坚实的 AI 生态发展基石。
百舸 4.0 的全新发布,既有助于增强百度 AI 基础设施的可连续性与卓越性,还会为客户在业务场景中落地大模子应用尽可能地降本增效,更对大模子引颈的 AIGC 爆发以及 AI 普惠铺平说念路。
改日,跟着集群范畴的连续扩大,还会出现更复杂的软硬件协同、算力调度等问题足球投注app,这些都需要通过连续的时间冲破来逐个克服。面对挑战更大的算力之争,百舸照旧作念好了准备。