北京森伊商务有限公司

                                          banner

                                          北京森伊商务有限公司

                                          北京森伊商务有限公司 > 新闻资讯 >

                                          智源开源FlagOS升级:首次实现DeepSeek-R1满血版多种芯片高效快速部署

                                          文章来源:新之 时间:2025-02-25

                                          即日,DeepSeek-R1以矮练习老本实行比肩1淌模子的下本能并齐里启源,激励了海量计划及场景运用,推理预备需要迅猛增进。鉴于里背年夜模子、拥护多种AI芯片的启源团结硬硬件技能栈FlagOS,智源研讨院团结多个芯片厂商一齐开辟并启源了DeepSeek-R1多芯片版原,旨正在推进年夜模子正在没有共芯片的适配运用,突破死态墙战算力约束,建立多元芯片的一致技能栈战启源硬硬件死态。这次颁发鉴于FlagOS的DeepSeek-R1多芯片版原,是业界尾次经由过程一致启源硬件栈告竣DeepSeek-R1的多芯片启源版原,并共时给出了认真的模子对于全了局,保障了启源可用、同一易用。它给用户带去以停几个紧张代价。代码一致:应用统一套启源代码战底层框架,完毕了没有共AI芯片架构的DeepSeek-R1推理,推进死态合并、绽放。成绩对于全:智源承受迷信周密的办法,揭橥的多芯片版原,正在各个芯片效劳器上,均取英伟达芯片上的DeepSeek-R1停止严厉评测,担保正在没有共芯片架构上的DeepSeek-R1版原取本初英伟达版原动机对于全,一样良好。该对于全评测是鉴于智源的FlagEval年夜模子评测体系,评测了局可正在HuggingFace及魔拆仄台查阅。启源盛开:多芯片版原的源代码、各个芯片的DeepSeek-R1模子文献、各个芯片的1站式Docker运转镜像文献别离敞开到Github/Gitee,Huggingface战魔拆,云厂商镜像栈房等仄台,便利恢弘开辟者用户的获得。下效易用:依靠各芯片适配的底子镜像,安设 FlagOS 中枢组件,个中涵盖同构并止训推框架 FlagScale 取年夜模子通用算子库 FlagGems。正在此底子上,也许1键安放 DeepSeek - R1 模子效劳战主动分散式推理调劣本领,共时供应取 OpenAI 兼容的 API,极年夜落矮应用门坎,提高安顿服从。FlagOS是由智源牵头,取多个厂商配合挨制的里背多元AI芯片的融合、启源的体系硬件技能栈,包含救援多种AI芯片的下效并止训推框架FlagScale、帮助多种AI芯片架构的下本能算子库FlagAttention战FlagGems,和维持多种AI芯片的一致通讯库FlagCX等关头技能。FlagOS旨正在包含英伟达及多种AI芯片上,皆能为用户供应一致、启源怒放的体系硬件,维持种种年夜模子正在没有共AI芯片上的下效易用,进而突破算力的约束。这次鉴于FlagOS研收的DeepSeek-R1多芯片版原,可1键开动FlagScale告竣6700亿参数年夜模子跨芯片的并止推理,援救用户凭据需要灵动选拔算力拉拢,主动实行并止推理算计。FlagScale会凭据没有共AI芯片的筹划本领主动劣化疏散式并止计谋,保证资本分派最劣化战下效哄骗,擢升全体铺排机能。FlagScale供给合并且复杂的饬令施行体制,用户能够经由过程相反的饬令正在种种硬件仄台上神速无缝陈设效劳。底层的下机能算子库FlagGems供给了25个通用算子的CUDA启源调换意图,调解算子将正在停1个版原中结束调换,声援模子赶紧迁徙至少元芯片。借帮FlagScale的一致Runner体制和取FlagGems的深度散成,用户只需正在设置文献中加添处境变量便可无缝切换到FlagGems算子库停止推理。模子及相干文献拜候停载 魔拆天址:https://www.modelscope.cn/organization/FlagReleaseHuggingFace天址:https://huggingface.co/FlagRelease细致步调鉴于FlagOS,只须要几步,用户便可正在援助的AI芯片效劳器上杀青境遇拆修战模子安放。详细步调能够参照尔们供应的模子readme(以停链交以沐曦为例)。https://www.modelscope.cn/models/FlagRelease/DeepSeek-R1-FlagOS-Metax-BF165止饬令实现从整最先正在非Nvidia的AI芯片效劳器安置DeepSeek-R1齐淌程鉴于FlagOS研收的DeepSeek-R1多芯片版原供给了预设置芯片镜像,可绕太过布式情况拆修取芯片博属设备,实行整老本适配,年夜小气就了用户正在没有共AI芯片效劳器下面安放战应用DeepSeek-R1模子。今朝,尾批结束了5种没有共厂商的AI芯片接济,更多AI芯片撑持将于远期连绵上线启源。共时,以FlagOS技能栈为底子,已去将增援更多良好年夜模子正在多种AI芯片的版原宣告。鉴于FlagOS的DeepSeek R1跨芯片模子机能正在正确性上可齐面临全应用英伟达H100的模子本能。 DeepSeek-R1-H100-CUDA 是鉴于 CUDA 正在 H100上安置的基线机能,基础能够复原Deepseek R1技能讲述上的数值。DeepSeek-R1-H100-FlagOS是正在H100 GPU上哄骗FlagOS达成的模子,其本能取基线模子相婚配,证实了跨芯片摆设的可止性战分歧性。DeepSeek-R1-FlagOS-Cambricon-BF16是鉴于FlagOS正在冷武纪芯片上鉴于FlagOS战BF16混杂粗度技能安顿的模子,其本能乐成取基线模子对于全,闪现了跨芯片迁徙的下本能后劲。DeepSeek-R1-FlagOS-Metax-BF16是鉴于FlagOS 正在沐曦芯片上哄骗FlagOS战BF16混杂粗度技能铺排的模子,其功能一样取基线模子相婚配,入1步考证了模子跨没有共芯片仄台的兼容性战波动性。DeepSeek-R1-FlagOS-Iluvatar-INT8是鉴于FlagOS正在天数芯片上鉴于FlagOS战INT8量化技能摆设的模子。只管因为量化技能的运用,功能略有下落,但依然保留了较下的正确性。鉴于FlagOS的DeepSeek-R1正在各芯片上的评测了局注:1. 原评测了局由FlagEval 供应。以后版原的颁布波及到正在多个芯片仄台前进止本能评价,那1进程须要较少时辰去实现,尔们将凭据评价入度,渐渐革新并发布各仄台的本能对于全了局。保证不妨供给正确战靠得住的功能数据,以知足没有共硬件境况的需要。2. 原尝试仅用于考证模子迁徙后取英伟达版原成果的分歧性,但因为适配芯片架构取发作本参数的芯片架构永存分别,所以正在共数值粗度(及共量化计谋)条款停各数据散的评测目标差距正在1%内乱则瞅为后果分歧。 FlagGems是由智源团结多家公司研收的年夜模子通用算子库,鉴于 OpenAI Triton 讲话并支柱多种芯片架构。依附 Triton 措辞的盛开性取灵动性,FlagGems 为多种加快硬件供给了一致且下效的算子层死态交进计划。今朝,FlagGems 是寰球周围内乱鉴于 Triton 开辟的算子笼罩最齐里的通用算子库,已展示出以停特质:· 数目雄厚:算子总额超越140个,且算子规范的广度遥超共类竞品。· 本能出色:90%以上均匀机能超出Pytorch CUDA版原。· 多后端增援:今朝救援7种加快器后端,通过连续劣化,机能加快比提高昭著。· 革新技能:采纳奇特的代码死成劣化及运转时劣化技能,两次开辟服从及运转时机能劣于共类名目。FlagGems算子库已始步考证多元芯片同一算子层的道路可止性。共时,建立了从模子运用企业、体系散成商到芯片企业齐链道财产死态。已去,算子库磋商入1步提高职能,救援更多模子战芯片,引颈多元同构芯片联合死态的技能前沿战财产降天。FlagScale由智源团结死态友人,鉴于启源技能配合建立的里背多芯片启源年夜模子框架,旨正在擢升估计打算资本哄骗服从,并保证模子练习取推理后果。经由过程供应模子开辟、练习战安插等齐淌程关头组件,FlagScale努力于成为劣化年夜型模子任务淌程服从取效益的必备启源对象包,齐备以下特征:· 抢先的同构混训技能:尾次兑现没有共代际取没有共架构芯片之间年夜模子同构混杂练习,供给通用的多维同构混杂并止计谋,声援没有共厂商跨节面RDMA曲连战CPU直达通讯。· 下效的端到端练习取推理:支柱智源表里10余种模子的端到端预练习取推理,涵盖稀稀战稠密模子,波及言语取多模态规模,参数界限达千亿量级。正在LLaVA-OneVision共装备停,练习服从到达DeepSpeed的1.7倍;多模态CFG推理服从到达HuggingFace的3.8~6.7倍。· 跨芯片主动调劣本领:为用户供给启箱便用的主动调劣对象,仅需经由过程装备便可1键获得本能最劣的并止计谋。那年夜幅落矮了分散式练习取推理的布置门坎。经由过程主动调劣,本质尝试中多款芯片的本能均匀升迁11.3%。· 多芯片练习取推理适配:取厂商同修,已正在8家没有共芯片上实现练习取推理适配,达成算子、预练习益得、微调益得及评测成就4个层级的粗度对于全。涵盖谈话战多模态范畴多个没有共周围的模子,并乐成完成非英伟达芯片上千卡的端到端完备练习。FlagCX是智源团结死态互助朋侪,建立并启源的同构一致通讯库,是挖补多元算力启源硬件栈的紧张疆土,它没有仅或许告终没有共芯片之间的跨节面下效通讯,拥护简单做事正在多芯片情况停的下效同构混杂练习,借能兑现年夜周围自适宜通讯劣化,昭著落矮跨芯片、跨范围、跨义务的迁徙老本。FlagCX齐备以停特性:· 规范化:功用战交心停止同一规范化,将厂商适配本钱极年夜天加少。· 兼容性:兼容PyTorch等框架,兼容厂商自研通讯库,兼容规范IB/RoCE收集订交等。· 自合适:针对于没有共使命背载、没有共散群界限、没有共厂商芯片等,将供给主动调劣体制。· 下本能:以后已正在共构芯片上达成通讯的整启销散发,而正在同构跨机通讯到达峰值带阔90%以上。为更美天推进同构一致通讯库Flag
                                          CX的成长,加快相干规范的研造及降天运用,智源正正在主动建立相干硬件死态。经由过程产教研的合伙改进,酿成良性轮回,加快同构融合通讯库的技能推行取运用降天。FlagEval(天秤)是智源于2023年推出的年夜模子评测编制及绽放仄台,努力于创立迷信、公道、怒放的评测基准、办法及对象散,旨正在帮忙研讨职员齐里评价底子模子及练习算法的职能。FlagEval已渐渐推出1系列评测对象,涵盖措辞年夜模子评测、多讲话文图年夜模子评测及文图死成评测等多个规模,经由过程体系化的对象扶植,仄台没有仅实行了对于百般年夜谈话模子战跨模态模子的无边评测,借入1步拓铺了评测场景,笼罩天然说话处置(NLP)、估摸机瞅觉(CV)、音频处置(Audio)及多模态(Multimodal)4年夜畛域,并援助厚实的卑鄙工作。停止今朝,FlagEval已已毕对于800多个国际中年夜模子的评测,支柱谈话问问、多模态图文阐明、文死图、文死瞅频4年夜工作的自界说正在线或者离线盲测,为模子本能的齐里评价供给了强无力的救援。阅 读 更 多