搜索

迪士尼彩乐园算违法吗 Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

发布日期:2025-02-10 14:38 点击次数:69

新智元报说念迪士尼彩乐园算违法吗

剪辑:定慧 桃子

【新智元导读】Llama 4眷属周末突袭,实矜重外。这场AI限制的「闪电战」不仅带来了两款全新架构的开源模子,更揭示了一个惊东说念主事实:Mac竖立或将成为部署大型AI模子的「性价比之王」。

谁也没意想,

一共三款模子,初度罗致MoE架构,开启了原生多模态的Llama期间!

Llama 4 Scout,激活17B,16个巨匠,109B参数;

Llama 4 Maverick,激活17B,128个巨匠,402B参数;

Llama 4 Behemoth,激活288B,16个巨匠,2T参数。

Llama 4发布后排行片刻跃升,以至逾越了DeepSeek-V3,Meta再一次回到牌桌。

业界首个1000万落魄文,RAG已死?

Meta声称Llama-4-Scout-17B-16E测试中好于Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。以至,小扎剧透了推理模子也不远了。

但也有网友戏弄Llama 4此次是「打鸭子上架」,是以Llama 4性能到底怎么,请看底下网友的实测。

疏淡MoE模子,和苹果芯号称急公好义

刻下,第一批测试罢休仍是出来了!

苹果ML工程师Awni Hannun实测,Llama 4 Maverick在单台M3 Ultra-512GB上使用MLX推理框架时速率极快,达到了50 token/秒!

与DeepSeek V3/R1访佛,Llama 4系齐是巨大的疏淡MoE模子。

这些模子领有极其盛大的参数目,但每次只好少许参数(巨匠)被激活。由于事前无法猜度哪些参数会被激活,因此必须把悉数参数同期存放在高速的GPU显存中。

为何关于开源模子,社区大佬齐倾向于使用苹果芯片去测试?

一方面,是因为买不到英伟达H100啊。

Awni Hannun暗示,更垂死的是Apple芯片得当疏淡模子。

GPU显存速率快,但本钱崇高。联系词Apple Silicon通过长入内存(Unified Memory)和UltraFusion 时间交融多个芯片,使其能够以更低的本钱提供更大容量、中等速率的内存。

一个月前发布的M3 Ultra Mac Studio的长入内存容量高达512GB!

联系词,当内存容量增大到这个进度时,内存带宽就不及了。关于512GB版原本说,内存刷新率(每秒GPU可齐备遍历悉数内存的次数,即内存带宽与容量之比)只好1.56次/秒。与其他硬件对比如下:

NVIDIA H100(80GB):37.5次/秒

AMD MI300X(192GB):27.6次/秒

Apple M2 Ultra(192GB):4.16次/秒(比H100慢9倍)

Apple M3 Ultra(512GB):1.56次/秒(比H100慢24倍)

理念念情况下,工作负载特色应与硬件特色相匹配。不然,硬件会存在浪费(性能多余)或瓶颈(性能不及)。对工作负载(此处为批大小=1的推理任务)而言,关节特色是模子疏淡度。

模子的疏淡度界说为 1-(激活参数数/总参数数)。

焕发模子疏淡度为0%(因为激活参数 = 总参数)。各模子疏淡度如下:

Llama 3.3 405B:总参数=405B,激活参数=405B,疏淡度=0%

DeepSeek V3/R1:总参数=671B,激活参数=37B,疏淡度=94.4%

Llama 4 Scout:总参数=109B,激活参数=17B,疏淡度=84.4%

Llama 4 Maverick:总参数=400B,激活参数=17B,疏淡度=95.75%(相配高!)

Llama 4 Behemoth:总参数=2T,激活参数=288B,疏淡度=85.6%

一般来说,疏淡度越高,越得当内存刷新率较低的Apple Silicon。因此,Llama 4 Maverick赫然是最得当 Apple Silicon的模子。

另外更垂死的原因即是Apple Silicon是启动大模子最具本钱效益的决议,因为长入内存每GB的本钱远低于GPU显存:

NVIDIA H100:80GB,3TB/s,售价$25,000,每GB本钱$312.50

AMD MI300X:192GB,5.3TB/s,迪士尼彩乐园售价$20,000,每GB本钱$104.17

Apple M3 Ultra:512GB,800GB/s,售价$9,500,每GB本钱$18.55

以2万亿参数巨兽Llama 4 Behemoth为例。

商量到若用H100来齐备容纳Behemoth模子(fp16精度),则需要50块H100,总本钱为125万好意思元;

MI300X的总本钱则为42万好意思元;

但若使用M3 Ultra,总本钱仅为7.6万好意思元!

以下是网友@alexocheema对不同版块Mac启动新Llama 4版块的情况进行了全面分析。

Llama 4此次发布的模子最大一个优点之一即是疏淡模子,这给了土产货部署许多念念象力,亦然开源模子的工作。

以精度4-bit为例,使用MLX推理框架不错在具有豪阔RAM的Mac上部署这些模子。

网友@awnihannun回归了部署Llama 4最新三个模子所需要的最小建立,真实齐不错完本钱地部署:

Llama 4 Scout 109B参数:64GB的M4 Max;

Llama 4 Maverick 400B参数:256GB的M3 Ultra;

Llama 4 Behemoth 2T参数:3台512GB的M3 Ultra;

Llama 4很强,即是写代码有点菜

说已矣硬件,再来望望Llama 4的实测效用。 网友@gnukeith测试了Llama 4的多模态才智,让模子识别图片中的东说念主物来自于哪个动漫,Llama收效识别!

网友@attentionmech制作了一个模子视觉化网页(神圣说即是看模子有若干层,有多深),Llama 4视觉上看起来如实令东说念主爱慕。

网友@philip_kiely使用Llama 4(Maverick)大肆打败了Brick Breaker氛围测试。

固然,也有翻车的,比如网友@fighto测试了「喜闻乐道」的让模子数r的问题,Llama 4 Maverick恢复诞妄。

网友@tariquesha1测试了Llama 4的图像生成才智。

再来望望Llama 4写代码的实战案例。

网友AlexBefest书记Llama 4 Maverick——Python六边形测试失败。Python六边形测试不错说是每个新发布大模子的「试金石」了。

底下展示了其他模子在Python六边形测试弹跳小球上的罢休,来自Github的KCORES团队。

KCORES团队成员karminski-牙医发布了Llama 4 Scout和Llama 4 Maverick的测试罢休。

用他的话说,Llama 4 Scout小参数模子忻悦就好;足足有402B参数的Maverick模子的推崇并不是很舒畅:

Scout小参数模子简略接近Grok2的水平(咋还倒退了);

而Mavericks还不如使用DeepSeek-V3-0324;

总之不提议Llama 4写代码

按照KCORES LLM Arena的评测罢休,当今最佳的模子GPT-4.5-Preview。

固然,当今的测试只针对写代码,其他长文本和多模态限制还需要更多的测试案例。

Llama 4的另一个冲突即是赈济10M的落魄文窗口长度,极端于20个小时的视频。

全网部署Llama 4

岂论奈何说Llama 4的发布依然是开源模子的又一剂强心针。 各家巨头和平台同期书记赈济最新的Llama 4。 微软CEO Satya Nadella书记随行将Scout和Maverick发布在Azure AI Foundry平台。

Cerebras书记将鄙人周完成Llama 4最新模子的部署。

Together AI上也同步推出Llama 4模子,动作Meta的发布迷惑伙伴,还赈济Together API的形势来拜谒Llama 4 Maverick 和Llama 4 Scout。

T3 Chat也书记Llama 4 Scout和Maverick均已启动,Scout由Groq托管,而Maverick由OpenRouter托管,何况声明了小参数模子Scout相配低廉,决定免费发布。

Databricks数据智能平台书记使用Llama模子来为AI运用才略、智能体和工作历程提供赈济。

接下来还会有更多的平台跟进Llama 4最新模子,就像几个月前各家平台亦然「豪恣」上线DeepSeek相似。

还有一个问题,为啥小扎选在他们的休息日发布Llama 4,随即就周一了啊?

Defined和Liftoff的聚合创举东说念主Nathan Lambert说顶尖Lab的率领们齐会知说念其他Labs的发布规画。

难说念说小扎知说念下周会有什么「豪恣」的模子发布可能会盖过Llama 4的风头,是以「打鸭子上架」吗。

最初在Llama 4的Github Model_Card的更新日记中,发现一个编削:

模子发布的日历从好意思国时辰的4月7号改到了4月5号(也即是咱们4月6号的凌晨)!

是以,周一Meta还会发布什么新模子吗?

在llama.com的官网上,咱们看到了llama4-resoning-is-coming的后缀,似乎预示着llama-4推理模子也要随即发布了!

而奥特曼不竭放出他的烟雾弹,在酬酢媒体禁止的预热:OpenAI接下来也要放大招了!

第1个赛季小贾巴里史密斯的表现一般。虽然护筐能力不错,但三分投篮命中率只有30%出头。从上赛季开始,小贾巴里史密斯的三分命中率逐渐稳定下来,本赛季他的三分命中率已经高达36.4%的水平。本赛季也是小史密斯和主力中锋阿尔佩伦申京在一起搭档的第3年。

火箭队记者官方报道,本赛季火箭队阿门出任首发球员时候,场均贡献18.0分+9.2篮板+2.8助攻+2.0抢断+2.7盖帽的数据,投篮命中率55.3%,真实命中率高达52.5%。阿门汤普森这赛季进步确实巨大,他是六边形战士,进攻和防守一体,没有弱项。火箭队最近和快船队交锋,阿门汤普森狂砍22分+10篮板+4助攻+2抢断+1盖帽的数据,非常犀利。

而岂论是此前奥特曼书记GPT5、o3和o4-mini的音尘,如故Llama 4的发布,如故DeepSeek和清华共同发布的论文,似乎预示着一件事:

悉数东说念主齐在恭候并期待着DeepSeek-R2!

请群众作念好准备,也许下周行将是「豪恣」的一周。

参考贵府:

https://x.com/karminski3/status/1908673924596195838

https://x.com/awnihannun/status/1908676110717771994

https://x.com/alexocheema/status/1908651942777397737

https://docs.google.com/spreadsheets/d/1mcRayUPtVJG_hOMruWWEf6T8TKbfTQIvH3WUkj_kx6E/edit?gid=0#gid=0

查看更多