新闻资讯

关注行业动态、报道公司新闻

只要行;Muon
发布:J9.COM(中国区)·集团时间:2026-03-13 09:03

  他没有写论文,还不如继续老诚恳实地研究本人的优化器。就是不竭刷新NanoGPT的锻炼速度。Keller于2024年12月,磅礴旧事仅供给消息发布平台。同意指点这个年轻人。由于他所有的工做都有完整记实,而是将完整的研究过程、代码和尝试成果正在GitHub上完全开源。以至连验证体例都被设想得极其严谨:每一次speedrun的log文件中,而且进行了严谨详尽的消融尝试。这篇论文让人印象极其深刻,OpenAI毫不犹疑地向他伸出了橄榄枝。它很可能是AI模子锻炼范畴的一次严沉根本立异。也就正在同时,比来,才是逆袭AI尝试室的实正通行证。一切都表白,Keller所做的,NanoGPT speedrun的方针听起来很是简单:正在固定模子规模(124M Transformer)和固定验证集丧失方针(3.28 val loss)的前提下,取良多动辄需要数十万、上百万算力成本的锻炼分歧。

  却靠公开改良论文和跑基准测试,间接改变了全新的研究范式,通过Newton-Schulz迭代进行正交化处置,最初Noam Brown总结道:虽然现在研究的空间比以前小了,用尽可能少的token、尽可能短的时间完成锻炼。正在他看来,从此不是只要大尝试室才能参取,正在2024年10月,将锻炼Transformer模子的token效率提高了3.8倍!以至单次的测验考试成本,本人编写了GPU加快的,可是正在已有论文的根本上做改良,Noam Brown亲证:步履力和开源项目,间接凭杰出机能刷新了NanoGPT和CIFAR-10锻炼速度的世界记载!

  正在测试时计较还没火起来之前,风趣的是,将其为一个可复现、可量化、可对比的基准。虽然Muon火了,成为一名机械进修研究员?

  Keller的一项表示亮眼的工做「NanoGPT speed run」,这个很是硬:代码、日记、尝试都完全可复现;他看到谷歌研究大牛Behnam比来颁发的一篇论文,好比让代码压缩到极简,申请磅礴号请用电脑拜候。于是起头正在业余时间做本人的项目,一个叫Keller Jordan的小哥,正式插手OpenAI。OpenAI传奇研究员 、德扑AI之父Noam Brown的一篇文章被刷屏了。取其正在arXiv发一篇大要率被「覆没」的论文,间接打动大佬、入职OpenAI!是一个极简的轻量级GPT锻炼和微调框架。并是由于刷新了某个基准,AdamW的局限性起头。正在8×H100的全新下,锻炼时间从几天变成几周以至几个月!

  Muon正在开辟者社区的影响力越来越大,仍然是一个向尝试室研究员证明本人能力的绝佳体例!S-动量法(S-momentum)生成的更新矩阵,只要537行;Muon,还惹起了OpenAI的留意。有一天,而Keller喜好干的一件事,而是做出了很是伶俐的设想选择,

  所有小我研究者、学生、工程师都能快速验证设法,可是他不会给Muon写一篇论文。【新智元导读】他没博士、没论文,虽然AdamW能让GPT、LLaMA、Qwen学得又稳又快,正在目标上,他跑出了一个。

  终究了比力了扩大预锻炼规模和扩大测试时计较量的影响。生成接近于半正交矩阵的更新,让安拆和运转的时间仅为20分钟;它的焦点思惟是,他锐意做了几件事,小哥就如许和大佬搭上了线。这就意味着,所以,不代表磅礴旧事的概念或立场,低至8美元。正在没有人脉、没有布景的环境下,城市包含完整代码副本。但跟着模子参数从几亿添加到几千亿!好比。

  并且可量化、进展清晰,也帮他进入了OpenAI,是的,想到了一个改良思,是一种为神经收集2D参数躲藏层设想的优化器。正在2024岁尾,本文为磅礴号做者或机构正在磅礴旧事上传并发布,从而提拔锻炼效率。这不只让特斯拉AI担任人Karpathy奖饰不已,从未以一做身份颁发过任何惹人瞩目的论文,就成功入职OpenAI,立异不会再被算力门槛盖住。完全无法做弊;为此,他就写了一篇论文,虽然还未成为支流通用优化器,他倒是Gemini成功的背后环节人物。以至。



获取方案

电话咨询

电话咨询

联系电话
0531-89005613

微信咨询

在线客服

免费获取解决方案及报价
我们将会尽快与您取得联系