ag九游会网站全情尽享娱乐、赛事投注以服务于并行的不同恳求-九游娱乐(中国)官方网站-登录入口

谷歌两位大佬回复一切：从 PageRank 到 AGI 的 25 年。

现任首席科学家Jeff Dean、出走又追念的 Transformer 作家Noam Shazeer，与闻明播客主握东谈主 Dwarkesh Patel 张开对谈。

视频刚发几个小时，就有 20 万 + 网友在线围不雅。

两东谈主齐是谷歌邃古职工，阅历了从 MapReduce 到 Transformer、MoE，他们发明了好多篡改通盘互联网和 AI 的要道工夫。

Noam Shazeer 却谈到当初入职谷歌仅仅为了捞一笔就跑，没猜测成了篡改天下的阿谁东谈主。

在两个多小时的语言中，他们涌现了 AI 算力的近况：

单个数据中心仍是不够了，Gemini 仍是在跨多个大城市的数据中心异步磨砺。

也对当下最流行的工夫趋势作念了探讨：

推理算力 Scaling 还有很大空间，因为与 AI 对话比念书仍然低廉 100 倍

异日的模子架构会比 MoE 更天真，允许不同的团队稀薄征战不同的部分

……

网友们也在边听边 po 发现的亮点：

比如在内存中存储一个巨大的 MoE 模子的设计。

以及"代码中的 bug 可能有时会对 AI 模子有正面影响"。

跟着范畴的扩大，某些 bug 恰是让规画东谈主员发现新冲破的机会。

推理算力 Scaling 的异日

好多东谈主合计 AI 算力很贵，Jeff Dean 不这样认为，他用念书和与 AI 考虑一册书来对比：

现在着手进的语言模子每次运算的老本约为 10-18 好意思元，这意味着一好意思元不错处理一百万个 token。

比拟之下，买一册平装书的老本粗略十分于每 1 好意思元买 1 万个 token（单词数换算成 token）。

那么，与大模子对话就比念书低廉约 100 倍。

这种老本上风，为通过加多推理算力来提高 AI 的智能提供了空间。

从基础设施角度来看，推理时刻狡计的宏大性加多可能会影响数据中心缱绻。

可能需要专门为推理任务定制硬件，就像谷歌初代 TPU一样，它领先是为推理的主张设计，其后才被纠正为也复旧磨砺。

对推理的依赖加多可能意味着不同的数据中心不需要握续通讯，可能导致更散播式、异步的狡计。

在磨砺层面，Gemini 1.5 仍是运转使用多个大城市的狡计资源，通过高速的收罗联结将不同数据中心中的狡计结束同步，凯旋竣事了超大范畴的磨砺。

对于大模子来说，磨砺每一步的时刻可能是几秒钟，因此即使收罗蔓延有 50 毫秒，也不会对磨砺产生显赫影响。

到了推理层面，还需要接头任务是否对蔓延敏锐。要是用户在恭候即时反应，系统需要针对低蔓延性能进行优化。关联词，也有一些非宏大的推理任务，比如运行复杂的高下文分析，不错承受更长的处理时刻。

更天真和高效的系统可能大约异步处理多个任务，在提高举座性能的同期最大限制地减少用户恭候时刻。

此外，算法效劳的提高，如使用较小的草稿（Draft）模子，不错匡助缓解推理进程中的瓶颈。在这种步调中，较小的模子生成潜在的 token，然后传递给较大的模子进行考据。这种并行化不错显赫加速推理进程，减少一次一个 token 的截止。

Noam Shazeer 补充，在进行异步磨砺时，每个模子副本会稀薄进行狡计，并将梯度更新发送到中央系统进行异步套用。诚然这种花样会使得模子参数略有波动，表面上会有影响，但推行评释它是凯旋的。

比拟之下，使用同步磨砺模式能提供愈加雄厚和可重迭的结束，这是许多规画者愈加深爱的模式。

在谈到若何保证磨砺的可重迭性时，Jeff Dean 提到一种步调是记载操作日记，尤其是梯度更新和数据批次的同步记载。通过回放这些操作日记，即使在异步磨砺的情况下，也大约确保结束的可重迭性。这种步调不错让调试变得愈加可控，幸免因为环境中的其他要素导致结束不一致。

Bug 也有克己

顺着这个话题，Noam Shazeer 提议一个突出念念的不雅点：‍

磨砺模子时可能会遭逢各式千般的 bug，但由于杂音的容忍度，模子可能会自我转换，从而产生未知的效果。

以至有的 bug 会产生正面影响，跟着范畴的扩大，因为某些 bug 在实验中可能会阐扬出荒谬，让规画东谈主员发现新的改进机会。

当被问及如安在实质就业中调试 bug 时，Noam Shazeer 先容他们每每会在小范畴下进行重大实验，这样不错快速考据不同的假定。在小范畴实验中，代码库保握肤浅，实验周期在一到两个小时而不是几周，规画东谈主员不错快速赢得反馈并作念出转换。

Jeff Dean 补充说，好多实验的初期结束可能并不睬想，因此一些"看似不凯旋"的实验可能在后期仍然大约为规画提供宏大的主张。

与此同期，规画东谈主员濒临着代码复杂性的问题：诚然握住叠加新的改进和翻新是必要的，但代码的复杂性也会带来性能和爱戴上的挑战，需要在系统的整洁性和翻新的鼓励之间找到均衡。

异日模子的有机结构

他们认为，AI 模子正在阅历从单一结构向模块化架构的宏大转化。

如 Gemini 1.5Pro 等模子仍是接收了大师羼杂（Mixture of Expert）架构，允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分，而在处理图像时则会激活专门处理图像的模块。

关联词，现时的模子结构仍然较为僵化，各个大师模块大小沟通，且穷乏富有的天真性。

Jeff Dean 提议了一个更具前瞻性的设计：异日的模子应该接收更有机的结构，允许不同的团队稀薄征战或改进模子的不同部分。

举例，一个专注于东南亚语言的团队不错专门改进该领域的模块，而另一个团队则不错专注于提高代码纠合才略。

这种模块化步调不仅能提高征战效劳，还能让寰球各地的团队齐能为模子的跳跃作念出孝敬。

在工夫竣事方面，模子不错通过蒸馏（Distillation）工夫来握住优化各个模块。这个进程包括将大型高性能模块蒸馏为微型高效版块，然后在此基础上继续学习新常识。

路由器不错凭据任务的复杂进程，遴荐调用相宜范畴的模块版块，从而在性能和效劳之间取得均衡，这恰是谷歌 Pathway 架构的初志。

这种新式架构对基础设施提议了更高条目。它需要刚烈的 TPU 集群和充足的高带宽内存（HBM）复旧。尽管每个调用可能只使用模子的一小部分参数，但通盘系统仍需要将齐备模子保握在内存中，以服务于并行的不同恳求。

现在的模子能将一个任务瓦解成 10 个子任务并有 80% 的凯旋率，异日的模子大约将一个任务瓦解成 100 或 1000 个子任务，凯旋率达到 90% 以至更高。

" Holy Shit 时刻"：准确识别猫

回偏激看，2007 年对于大模子（LLMs）来说算得上一个宏大时刻。

其时谷歌使用 2 万亿个 tokens 磨砺了一个 N-gram 模子用于机器翻译。

然而，由于依赖磁盘存储 N-gram 数据，导致每次查询需重大磁盘 I/O（如 10 万次搜索 / 单词），蔓延相配高，翻译一个句子就要 12 小时。

于是其后他们猜测了内存压缩、散播式架构以及批处理 API 优化等多种冒昧举措。

内存压缩：将 N-gram 数据实足加载到内存，幸免磁盘 I/O；

散播式架构：将数据分片存储到多台机器（如 200 台），竣事并行查询；

批处理 API 优化：减少单次恳求支出，提高辩说量。

进程中，狡计才略运转战胜摩尔定律在之后逐渐呈现爆发式增长。

从 2008 年末运转，多亏了摩尔定律，神经收罗信得过运转起作用了。

那么，有莫得哪一个时刻属于" Holy shit "呢？（我方齐不敢敬佩某项规画果真起作用了）

不出随机，Jeff 谈到了在谷歌早期团队中，他们让模子从油管视频帧中自动学习高档特征（如识别猫、行东谈主），通过散播式磨砺（2000 台机器，16000 核）竣事了大范畴无监督学习。

而在无监督预磨砺后，模子在监督任务（ImageNet）中性能提高了 60%，评释了范畴化磨砺和无监督学习的后劲。

接下来，当被问及如今谷歌是否仍仅仅一乡信息检索公司的问题，Jeff 用了一大段话抒发了一个不雅点：

AI 推行了谷歌的原始任务

肤浅说，AI 不仅能检索信息，还能纠合和生成复杂内容，而且异日遐想力空间巨大。

至于谷歌异日去处何方，"我不知谈"。

不外不错期待一下，异日将谷歌和一些开源源代码整合到每个征战者的高下文中。

换句话说，通过让模子处理更多 tokens，在搜索中搜索，来进一步增强模子才略和实用性。

天然，这一想法仍是在谷歌里面运转了实验。

实质上，咱们仍是在里面代码库上为里面征战东谈主员进行了对于 Gemini 模子的进一步培训。

更确凿的说法是，谷歌里面仍是达成25% 代码由 AI 完成的指标。

在谷歌最空闲的时光

突出念念的是，这二位还在对话中涌现了更多与谷歌相干的风趣阅历。

对 1999 年的 Noam 来说，底本没缱绻去谷歌这样的大公司，因为凭直观认为去了也可能不消武之地，但其后当他看到谷歌制作的逐日搜索量指数图表后，立马转化了想法：

这些东谈主一定会凯旋，看起来他们还有好多好问题需要责罚

于是带着我方的"防范念念"就去了（主动投了简历）：

挣一笔钱，然后另外开欣慰心去搞我方感意思的 AI 规画

而加入谷歌后，他就此结子了导师 Jeff（新职工齐会有一个导师），其后两东谈主在多个姿色中有过协作。

谈到这里，Jeff 也插播了一条他对谷歌的认可点：

可爱谷歌对 RM 愿景（反应式和多模态，Responsive and Multimodal）的正常授权，即使是一个标的，也能作念好多小姿色。

而这也相似为 Noam 提供了解放空间，以至于当初缱绻"干一票就跑"的东谈主永远留了下来。

与此同期，当话题转向当事东谈主 Jeff 时，他的一篇对于平行反向传播的本科论文也被再次说起。

这篇论文只消 8 页，却成为 1990 年的最优等本科论文，被明尼苏达大学藏书楼保存于今。

其中，Jeff 探讨了两种基于反向传播来平行磨砺神经收罗的步调。

模式分割法（pattern-partitioned approach）：将通盘神经收罗示意在每一个处理器上，把各式输入模式折柳到可用的处理器上；

收罗分割法（network-partitioned approach）活水线法（pipelined approach）：将神经收罗的神经元散播到可用的处理器上，总共处理器组成一个相互通讯的环。然后，特征通过这个 pipeline 传递的进程中，由每个处理器上的神经元来处理。

他还构建了不同大小的神经收罗，用几种不同的输入数据，对这两种步调进行了测试。

结束标明，对于模式分割法，收罗大、输入模式多的情况下加速效果比较好。

天然最值得眷注的照旧，咱们能从这篇论文中看到 1990 年的"大"神经收罗是什么样：

3 层、每层分别 10、21、10 个神经元的神经收罗，就算很大了。

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff 还回忆谈，我方测试用的处理器，最多达到了 32 个。

（这时的他应该还想不到，12 年后他会和吴恩达、Quoc Le 等东谈主一齐，用 16000 个 CPU 中枢，从海量数据中找出猫。）

不外 Jeff 坦言，要是要让这些规画后果信得过阐扬作用，"咱们需要粗略 100 万倍的狡计才略"。

其后，他们又谈到了 AI 的潜在风险，尤其是当 AI 变得极其刚烈时可能出现的反馈轮回问题。

换句话说，AI 通过编写代码或改进本人算法，可能干涉不能控的加速改进轮回（即"智能爆炸"）。

这将导致 AI 连忙卓越东谈主类限制，以至产生坏心版块。就像主握东谈主打的譬如，有 100 万个像 Jeff 这样的顶尖设施员，最终酿成" 100 万个惨酷的 Jeff "。

（网友）：新的恶梦解锁了哈哈哈！

终末，谈及在谷歌最空闲的时光，二东谈主也分别堕入回忆。

对 Jeff 来说，在谷歌早期四五年的日子里，最空闲的莫过于见证谷歌搜索流量的爆炸式增长。

缔造一个如今 20 亿东谈主齐在使用的东西，这相配不能念念议。

至于最近，则很欣慰和 Gemini 团队构建一些，即使在 5 年前东谈主们齐不敢敬佩的东西，何况不错预料模子的影响力还将扩大。

而 Noam 也抒发了肖似阅历和职责，以至乐滋滋 cue 到了谷歌的"微型厨房区域"。

据先容，这是一个粗略有 50 张桌子的终点空间，提供咖啡小吃，东谈主们不错在这里解放安宁谈天，碰撞想法。

一说到这个，连 Jeff 也活蹦乱跳了（doge）：

Okk，以上为两位大佬共享的主要内容。

参考贯串 :

[ 1 ] https://x.com/JeffDean/status/1889780178983031035

[ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768ag九游会网站全情尽享娱乐、赛事投注