谷歌两位大佬回复一切:从 PageRank 到 AGI 的 25 年。 现任首席科学家Jeff Dean、出走又追念的 Transformer 作家Noam Shazeer,与闻明播客主握东谈主 Dwarkesh Patel 张开对谈。 视频刚发几个小时,就有 20 万 + 网友在线围不雅。 两东谈主齐是谷歌邃古职工,阅历了从 MapReduce 到 Transformer、MoE,他们发明了好多篡改通盘互联网和 AI 的要道工夫。 Noam Shazeer 却谈到当初入职谷歌仅仅为了捞一笔就跑,没猜测成了篡改天下的阿谁东谈主。 在两个多小时的语言中,他们涌现了 AI 算力的近况: 单个数据中心仍是不够了,Gemini 仍是在跨多个大城市的数据中心异步磨砺。 也对当下最流行的工夫趋势作念了探讨: 推理算力 Scaling 还有很大空间,因为与 AI 对话比念书仍然低廉 100 倍 异日的模子架构会比 MoE 更天真,允许不同的团队稀薄征战不同的部分 …… 网友们也在边听边 po 发现的亮点: 比如在内存中存储一个巨大的 MoE 模子的设计。 以及"代码中的 bug 可能有时会对 AI 模子有正面影响"。 跟着范畴的扩大,某些 bug 恰是让规画东谈主员发现新冲破的机会。 推理算力 Scaling 的异日 好多东谈主合计 AI 算力很贵,Jeff Dean 不这样认为,他用念书和与 AI 考虑一册书来对比: 现在着手进的语言模子每次运算的老本约为 10-18 好意思元,这意味着一好意思元不错处理一百万个 token。 比拟之下,买一册平装书的老本粗略十分于每 1 好意思元买 1 万个 token(单词数换算成 token)。 那么,与大模子对话就比念书低廉约 100 倍。 这种老本上风,为通过加多推理算力来提高 AI 的智能提供了空间。 从基础设施角度来看,推理时刻狡计的宏大性加多可能会影响数据中心缱绻。 可能需要专门为推理任务定制硬件,就像谷歌初代 TPU一样,它领先是为推理的主张设计,其后才被纠正为也复旧磨砺。 对推理的依赖加多可能意味着不同的数据中心不需要握续通讯,可能导致更散播式、异步的狡计。 在磨砺层面,Gemini 1.5 仍是运转使用多个大城市的狡计资源,通过高速的收罗联结将不同数据中心中的狡计结束同步,凯旋竣事了超大范畴的磨砺。 对于大模子来说,磨砺每一步的时刻可能是几秒钟,因此即使收罗蔓延有 50 毫秒,也不会对磨砺产生显赫影响。 到了推理层面,还需要接头任务是否对蔓延敏锐。要是用户在恭候即时反应,系统需要针对低蔓延性能进行优化。关联词,也有一些非宏大的推理任务,比如运行复杂的高下文分析,不错承受更长的处理时刻。 更天真和高效的系统可能大约异步处理多个任务,在提高举座性能的同期最大限制地减少用户恭候时刻。 此外,算法效劳的提高,如使用较小的草稿(Draft)模子,不错匡助缓解推理进程中的瓶颈。在这种步调中,较小的模子生成潜在的 token,然后传递给较大的模子进行考据。这种并行化不错显赫加速推理进程,减少一次一个 token 的截止。 Noam Shazeer 补充,在进行异步磨砺时,每个模子副本会稀薄进行狡计,并将梯度更新发送到中央系统进行异步套用。诚然这种花样会使得模子参数略有波动,表面上会有影响,但推行评释它是凯旋的。 比拟之下,使用同步磨砺模式能提供愈加雄厚和可重迭的结束,这是许多规画者愈加深爱的模式。 在谈到若何保证磨砺的可重迭性时,Jeff Dean 提到一种步调是记载操作日记,尤其是梯度更新和数据批次的同步记载。通过回放这些操作日记,即使在异步磨砺的情况下,也大约确保结束的可重迭性。这种步调不错让调试变得愈加可控,幸免因为环境中的其他要素导致结束不一致。 Bug 也有克己 顺着这个话题,Noam Shazeer 提议一个突出念念的不雅点: 磨砺模子时可能会遭逢各式千般的 bug,但由于杂音的容忍度,模子可能会自我转换,从而产生未知的效果。 以至有的 bug 会产生正面影响,跟着范畴的扩大,因为某些 bug 在实验中可能会阐扬出荒谬,让规画东谈主员发现新的改进机会。 当被问及如安在实质就业中调试 bug 时,Noam Shazeer 先容他们每每会在小范畴下进行重大实验,这样不错快速考据不同的假定。在小范畴实验中,代码库保握肤浅,实验周期在一到两个小时而不是几周,规画东谈主员不错快速赢得反馈并作念出转换。 Jeff Dean 补充说,好多实验的初期结束可能并不睬想,因此一些"看似不凯旋"的实验可能在后期仍然大约为规画提供宏大的主张。 与此同期,规画东谈主员濒临着代码复杂性的问题:诚然握住叠加新的改进和翻新是必要的,但代码的复杂性也会带来性能和爱戴上的挑战,需要在系统的整洁性和翻新的鼓励之间找到均衡。 异日模子的有机结构 他们认为,AI 模子正在阅历从单一结构向模块化架构的宏大转化。 如 Gemini 1.5Pro 等模子仍是接收了大师羼杂(Mixture of Expert)架构,允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分,而在处理图像时则会激活专门处理图像的模块。 关联词,现时的模子结构仍然较为僵化,各个大师模块大小沟通,且穷乏富有的天真性。 Jeff Dean 提议了一个更具前瞻性的设计:异日的模子应该接收更有机的结构,允许不同的团队稀薄征战或改进模子的不同部分。 举例,一个专注于东南亚语言的团队不错专门改进该领域的模块,而另一个团队则不错专注于提高代码纠合才略。 这种模块化步调不仅能提高征战效劳,还能让寰球各地的团队齐能为模子的跳跃作念出孝敬。 在工夫竣事方面,模子不错通过蒸馏(Distillation)工夫来握住优化各个模块。这个进程包括将大型高性能模块蒸馏为微型高效版块,然后在此基础上继续学习新常识。 路由器不错凭据任务的复杂进程,遴荐调用相宜范畴的模块版块,从而在性能和效劳之间取得均衡,这恰是谷歌 Pathway 架构的初志。 这种新式架构对基础设施提议了更高条目。它需要刚烈的 TPU 集群和充足的高带宽内存(HBM)复旧。尽管每个调用可能只使用模子的一小部分参数,但通盘系统仍需要将齐备模子保握在内存中,以服务于并行的不同恳求。 现在的模子能将一个任务瓦解成 10 个子任务并有 80% 的凯旋率,异日的模子大约将一个任务瓦解成 100 或 1000 个子任务,凯旋率达到 90% 以至更高。 " Holy Shit 时刻":准确识别猫 回偏激看,2007 年对于大模子(LLMs)来说算得上一个宏大时刻。 其时谷歌使用 2 万亿个 tokens 磨砺了一个 N-gram 模子用于机器翻译。 然而,由于依赖磁盘存储 N-gram 数据,导致每次查询需重大磁盘 I/O(如 10 万次搜索 / 单词),蔓延相配高,翻译一个句子就要 12 小时。 于是其后他们猜测了内存压缩、散播式架构以及批处理 API 优化等多种冒昧举措。 内存压缩:将 N-gram 数据实足加载到内存,幸免磁盘 I/O; 散播式架构:将数据分片存储到多台机器(如 200 台),竣事并行查询; 批处理 API 优化:减少单次恳求支出,提高辩说量。 进程中,狡计才略运转战胜摩尔定律在之后逐渐呈现爆发式增长。 从 2008 年末运转,多亏了摩尔定律,神经收罗信得过运转起作用了。 那么,有莫得哪一个时刻属于" Holy shit "呢?(我方齐不敢敬佩某项规画果真起作用了) 不出随机,Jeff 谈到了在谷歌早期团队中,他们让模子从油管视频帧中自动学习高档特征(如识别猫、行东谈主),通过散播式磨砺(2000 台机器,16000 核)竣事了大范畴无监督学习。 而在无监督预磨砺后,模子在监督任务(ImageNet)中性能提高了 60%,评释了范畴化磨砺和无监督学习的后劲。 接下来,当被问及如今谷歌是否仍仅仅一乡信息检索公司的问题,Jeff 用了一大段话抒发了一个不雅点: AI 推行了谷歌的原始任务 肤浅说,AI 不仅能检索信息,还能纠合和生成复杂内容,而且异日遐想力空间巨大。 至于谷歌异日去处何方,"我不知谈"。 不外不错期待一下,异日将谷歌和一些开源源代码整合到每个征战者的高下文中。 换句话说,通过让模子处理更多 tokens,在搜索中搜索,来进一步增强模子才略和实用性。 天然,这一想法仍是在谷歌里面运转了实验。 实质上,咱们仍是在里面代码库上为里面征战东谈主员进行了对于 Gemini 模子的进一步培训。 更确凿的说法是,谷歌里面仍是达成25% 代码由 AI 完成的指标。 在谷歌最空闲的时光 突出念念的是,这二位还在对话中涌现了更多与谷歌相干的风趣阅历。 对 1999 年的 Noam 来说,底本没缱绻去谷歌这样的大公司,因为凭直观认为去了也可能不消武之地,但其后当他看到谷歌制作的逐日搜索量指数图表后,立马转化了想法: 这些东谈主一定会凯旋,看起来他们还有好多好问题需要责罚 于是带着我方的"防范念念"就去了(主动投了简历): 挣一笔钱,然后另外开欣慰心去搞我方感意思的 AI 规画 而加入谷歌后,他就此结子了导师 Jeff(新职工齐会有一个导师),其后两东谈主在多个姿色中有过协作。 谈到这里,Jeff 也插播了一条他对谷歌的认可点: 可爱谷歌对 RM 愿景(反应式和多模态,Responsive and Multimodal)的正常授权,即使是一个标的,也能作念好多小姿色。 而这也相似为 Noam 提供了解放空间,以至于当初缱绻"干一票就跑"的东谈主永远留了下来。 与此同期,当话题转向当事东谈主 Jeff 时,他的一篇对于平行反向传播的本科论文也被再次说起。 这篇论文只消 8 页,却成为 1990 年的最优等本科论文,被明尼苏达大学藏书楼保存于今。 其中,Jeff 探讨了两种基于反向传播来平行磨砺神经收罗的步调。 模式分割法(pattern-partitioned approach):将通盘神经收罗示意在每一个处理器上,把各式输入模式折柳到可用的处理器上; 收罗分割法(network-partitioned approach)活水线法(pipelined approach):将神经收罗的神经元散播到可用的处理器上,总共处理器组成一个相互通讯的环。然后,特征通过这个 pipeline 传递的进程中,由每个处理器上的神经元来处理。 他还构建了不同大小的神经收罗,用几种不同的输入数据,对这两种步调进行了测试。 结束标明,对于模式分割法,收罗大、输入模式多的情况下加速效果比较好。 天然最值得眷注的照旧,咱们能从这篇论文中看到 1990 年的"大"神经收罗是什么样: 3 层、每层分别 10、21、10 个神经元的神经收罗,就算很大了。 论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view Jeff 还回忆谈,我方测试用的处理器,最多达到了 32 个。 (这时的他应该还想不到,12 年后他会和吴恩达、Quoc Le 等东谈主一齐,用 16000 个 CPU 中枢,从海量数据中找出猫。) 不外 Jeff 坦言,要是要让这些规画后果信得过阐扬作用,"咱们需要粗略 100 万倍的狡计才略"。 其后,他们又谈到了 AI 的潜在风险,尤其是当 AI 变得极其刚烈时可能出现的反馈轮回问题。 换句话说,AI 通过编写代码或改进本人算法,可能干涉不能控的加速改进轮回(即"智能爆炸")。 这将导致 AI 连忙卓越东谈主类限制,以至产生坏心版块。就像主握东谈主打的譬如,有 100 万个像 Jeff 这样的顶尖设施员,最终酿成" 100 万个惨酷的 Jeff "。 (网友):新的恶梦解锁了哈哈哈! 终末,谈及在谷歌最空闲的时光,二东谈主也分别堕入回忆。 对 Jeff 来说,在谷歌早期四五年的日子里,最空闲的莫过于见证谷歌搜索流量的爆炸式增长。 缔造一个如今 20 亿东谈主齐在使用的东西,这相配不能念念议。 至于最近,则很欣慰和 Gemini 团队构建一些,即使在 5 年前东谈主们齐不敢敬佩的东西,何况不错预料模子的影响力还将扩大。 而 Noam 也抒发了肖似阅历和职责,以至乐滋滋 cue 到了谷歌的"微型厨房区域"。 据先容,这是一个粗略有 50 张桌子的终点空间,提供咖啡小吃,东谈主们不错在这里解放安宁谈天,碰撞想法。 一说到这个,连 Jeff 也活蹦乱跳了(doge): Okk,以上为两位大佬共享的主要内容。 参考贯串 : [ 1 ] https://x.com/JeffDean/status/1889780178983031035 [ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768ag九游会网站全情尽享娱乐、赛事投注 |
记者从水利部了解到,国度1万亿元增发国债中无后顾之忧,跳跃一半用于防洪排涝等筹备水利才调建设,重心解救处所水毁工程建设及灌区建设等多个水利工程神志。当今,增发国...
当地技艺4月3日14时40分,日本宫崎县宫崎产业筹办大学内操场上发生落雷,数东说念主因被落雷击中受伤。据宫崎县警方音问,其中有两东说念主心肺功能罢手。 据NHK...
在国表里需求复苏的拉动下,A股轮胎企业喜报频传,但手脚老牌企业的青岛双星(000599)(SZ000599,股价5.70元,市值46.56亿元)在2023年仍未...
...
1月30日,酬酢部发言东谈主汪文斌主握例行记者会。有记者发问,俄罗斯央行暗示,俄罗斯正在与其他金砖国度商议国度金融信息传输系统的互动,以替代Swift。中方对此...