,华纳娱乐公司官方客服电话:您的贴心服务指南

20260619 03:13:11 吕丹寒 274

,Transformer之父离开谷歌,奥特曼等了他十年,很高兴为您解答这个问题,让我来帮您详细说明一下。

大兴安岭地区呼玛县、丽水市缙云县、聊城市冠县、凉山昭觉县、七台河市茄子河区、武汉市新洲区、信阳市潢川县、牡丹江市海林市、屯昌县枫木镇、锦州市北镇市、内蒙古赤峰市巴林左旗、东莞市茶山镇、成都市新都区、永州市冷水滩区、苏州市吴江区、济宁市曲阜市、太原市晋源区

本文来自微信公众号:字母 AI,作者:袁心玥,编辑:王靖,题图来自:AI 生成Transformer 的奠基人,开始参与寻找 Transformer 之后的下一步。Google 工程副总裁、Gemini 模型联合负责人 Noam Shazeer 在 X 上宣布,自己将离开 Google,加入 OpenAI。Shazeer 是《Attention Is All You Need》的核心作者之一,最早的 "Transformer 八子 " 就有他的名字。从 GPT 到 Claude、从 Gemini 到几乎所有主流大模型,现代 AI 的底层结构都绕不开 Transformer,而 Shazeer 正是最早参与定义这套结构的人之一。2024 年,Google 曾通过一笔约 27 亿美元的技术授权与人才回流交易,把 Shazeer 和部分 Character.AI 团队重新请回 Google,让他参与 Gemini 模型研发。不到两年后,这位 Gemini 联合负责人再次离开 Google,转身去了 OpenAI。据 OpenAI 首席研究官 Mark Chen 发帖,Shazeer 将担任 OpenAI 新的架构研究负责人。Sam Altman 也发帖表示,从 OpenAI 创立之初,Noam 就是他最想合作的人之一。他等这一天等了十年,但很值得。被 Google 反复追回的人,又离开了 GoogleNoam Shazeer 并不是第一次离开 Google,从他的领英账号来看,他的职业生涯几乎一直在和谷歌 " 拉拉扯扯 "。Shazeer 曾在 2024 年 8 月播出的 Dwarkesh Podcast 访谈中说,自己似乎每隔 12 年就会重新加入一次 Google:2000 年一次,2012 年一次,2024 年又一次。2000 年 12 月,Shazeer 加入 Google,成为公司早期的软件工程师。那时的 Google 还很年轻,他也是最早一批加入公司的工程师之一。Shazeer 最早参与的重要项目之一,是改进 Google 搜索的拼写纠错系统。但他感兴趣的不只是搜索——还有 AI。他在播客里说,自己当年加入 Google,有一个很朴素的想法:先赚一些钱,以后就可以长期做 AI 研究。2009 年,Shazeer 曾短暂离开 Google。公开资料并没有详细说明这次离开的原因。后来他在播客中回忆,几年后自己回 Google 和妻子吃午饭,碰巧坐到了 Jeff Dean 和早期 Google Brain 团队旁边,被那群人重新吸引。2012 年,Shazeer 重新加入 Google。那一年,Google Brain 正处在早期阶段,Jeff Dean 等人正在把深度学习从研究项目推进到 Google 内部更核心的位置。这次回归也让 Shazeer 从早期搜索工程体系,转向 Google 的 AI 主航道。几年后,Shazeer 的名字开始真正进入现代 AI 史。2017 年,他和 Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin 等人共同发表《Attention Is All You Need》,提出了 Transformer 架构。后来发生的事情,已经不需要太多解释。几乎所有主流大模型,底层结构都绕不开 Transformer。Transformer 之外,Shazeer 很早就参与推动稀疏 MoE,也就是混合专家模型——这条路线的核心思想是,不让每次计算都激活整个模型,而是根据不同输入调用不同 " 专家 " 模块,从而在扩大模型容量的同时控制计算成本。后来,MoE 成为大模型扩展和效率优化的重要方向。2021 年,Shazeer 和 Google 同事 Daniel De Freitas 离开公司,创办 Character.AI。据传,这件事的导火索是 Google 拒绝公开发布他们参与开发的一款聊天机器人。那款产品最初名为 Meena,目标是让 AI 能围绕广泛话题展开自然对话。据《华尔街 · 日报》报道,Shazeer 曾在一份内部备忘录《Meena Eats the World》中预测,这类聊天机器人有可能取代 Google 搜索,并创造数万亿美元收入。但 Google 没有选择发布它,高管给出的理由包括安全性和公平性风险。对 Google 来说这或许是谨慎,但对 Shazeer 这样的人来说,更像是一个巨大机会被放下——而机会被放下,往往意味着被错过。所以 Shazeer 离开了。一年后,OpenAI 用另一种方式证明了 Shazeer 的判断。2022 年 11 月,ChatGPT 让全世界意识到,聊天机器人可能成为普通人接触 AI 的第一入口。Character.AI 也在这股浪潮中快速起势。2023 年 3 月,Character.AI 完成 1.5 亿美元融资,估值达到 10 亿美元。它主打各种可对话的 AI 角色,用户可以和实用助手、虚构人物甚至名人形象聊天。当年没有放行 Meena 的 Google,最后又不得不把 Shazeer 请回来。2024 年,Google 与 Character.AI 达成一笔特殊交易:Google 获得 Character.AI 的部分技术授权,同时把 Shazeer、Daniel De Freitas 以及部分研究团队带回 Google DeepMind。为了拿到技术和人,Google 付出的代价高达约 27 亿美元。据《华尔街 · 日报》报道,Shazeer 也因为持有 Character.AI 股份,在这笔交易中获得了数亿美元收益。换句话说,Google 当年拒绝发布的聊天机器人路线,最后以另一种昂贵的方式回到了 Google。回归后,Shazeer 加入 Gemini 核心领导层,参与 Google 最重要的大模型研发。他的头衔变成了 Google 工程副总裁、Gemini 模型联合负责人。不到两年后,剧情又迎来转折—— Shazeer 又一次离开 Google。这一次,他去的是做出 ChatGPT 的 OpenAI。细想来,他的故事多少像是一段关于 chatbot 的孽缘。Transformer 之后,下一个改变时代的架构据 OpenAI 首席研究官 Mark Chen 的说法,Shazeer 将担任 OpenAI 新的架构研究负责人。过去几年,大模型行业最熟悉的叙事是 scaling law:更多数据、更大模型、更多算力、更长上下文,带来更强能力。但从 2024 年开始,越来越多迹象表明,单纯扩大预训练规模的边际收益正在下降。Ilya Sutskever 曾公开表示,预训练作为过去几年最重要的 scaling 配方,正在接近数据和方法上的边界;如果只是把规模再放大 100 倍,并不会自动带来下一次 GPT-3 到 GPT-4 式的跨越。另一方面,Transformer 本身的短板也开始暴露出来。前些年,大家还会把问题理解成 " 模型还不够大 " 或者 " 上下文还不够长 ",但现在越来越多研究显示,很多能力瓶颈并不只是规模问题,而是架构问题。比如,长上下文不等于真正记忆。模型可以在几十万甚至上百万 token 的上下文里检索信息,但这不代表它真的维护了一个稳定的内部状态。它能回看过去,不等于它清楚当下的情况。再比如,思维链不等于真正推理。Chain-of-Thought、reasoning model、test-time compute 的流行,说明模型确实需要更多中间计算。但如果每一点状态变化、每一个简单推理,都要靠显式文字写出来,再重新喂回模型,本质上是一种非常昂贵的补丁。Google DeepMind 前段时间发的论文《The Topological Trouble With Transformers》(Transformer 的拓扑困境),讨论的就是上述问题。论文指出,纯前馈 Transformer 在动态状态追踪上存在结构性短板。Transformer 很擅长回看上下文,却不天然擅长维护一个持续变化的内部状态。论文举了几个直观的例子:模型可以在上下文里看到前面的对话,却仍然在多轮交互里出现前后不一致;它可以看到关于 "bank" 的上下文,却在后续问题里从把这个词从 " 河岸 " 理解成 " 银行 ";它也可能在猜数字游戏里给出互相矛盾的反馈。如果一个模型只是把过去全部放进窗口里,再通过注意力机制去查找,它更像是在翻一本很长的笔记,而不是持续拥有一个会更新的记忆。说起来,这背后甚至带有一点认知科学和哲学意味。以人类本身为例,人的记忆和想象力共享一个高度重叠的核心神经网络——记忆并不是把过去完整存档,然后在需要时原样调取。很多时候,记忆更像是一种回溯性的重建:大脑在当下重新组织线索、补全语境,并把过去、想象和判断混合成一个可以行动的状态。真正的智能,尤其是长程推理、多轮对话、规划、代码代理和复杂任务执行,需要的不止是回顾过去,还要理解当下实在的状态。当然,Transformer 毕竟是很久之前的底层架构,这篇说的 " 短板 " 其实更像是放在现在的评价框架里去看过去的一个架构。但也恰恰说明,Transformer 未必一定适合我们当下对于智能的需求。现在围绕 Transformer 的改造已经层出不穷:MoE 试图解决参数规模和计算成本之间的矛盾;高效解码试图降低推理成本;长上下文试图扩展模型的记忆边界;state-space model、递归结构、latent reasoning、test-time compute,则试图补上状态追踪、长期一致性和动态推理的短板。AI 行业渐渐形成了一个新的共识——下一代模型不能只是更大的 Transformer,它必须更会组织计算、更会维护状态、更会在推理过程中更新自己对世界的表示。于是,架构问题又被翻了出来。Shazeer 加入 OpenAI 的象征意义就在于此,架构研究负责人这个岗位指向的,正是前沿模型竞争最底层的问题。这让 Shazeer 的跳槽不再是 "Transformer 之父去 OpenAI 继续加强 Transformer" 的故事,更像是一个参与定义 Transformer 时代的人,开始参与寻找 Transformer 之后的下一步。机会成本、人才战争和下一代模型对 Google 来说,Shazeer 的离开当然是损失——这个损失并不只是少了一位 Gemini 联合负责人,还指向 Google AI 史里那个反复出现的问题:它常常很早看到未来,却未必能最快把未来推到用户面前。Shazeer 在播客中回忆,Larry Page 以前常说,Google 第二大的成本是税,最大的成本是机会成本。(以防万一,Shazeer 还补了一句:如果 Page 没说过,那自己已经误引他很多年了。)Google 拥有世界上最强的研究人员、最完整的工程体系、最先进的 TPU 和数据中心、以及足够庞大的产品入口。但越是这样的大公司,越要在安全、公平、组织边界和产品化风险之间反复权衡。在 AI 这样一个窗口期极短的行业里,谨慎本身可能是必要的,但谨慎也可能变成昂贵的延迟、机会的流失。而对 OpenAI 来说,Shazeer 的加入,意义非常重大——就连 Sam Altman 都表示 " 从 OpenAI 创立之初,Noam 就是他最想合作的人之一 "。OpenAI 得到的是一组极其稀缺的经验集合:Transformer、MoE、大规模训练、高效解码、对话模型、基础模型工程,以及在 Google 这种超大规模系统里多年打磨出来的架构直觉。大模型架构研究并不是提出一个漂亮想法就结束了。Shazeer 在播客里说过,小规

近日观测中心传出重要预警,,华纳娱乐公司官方客服电话:您的贴心服务指南,很高兴为您解答这个问题,让我来帮您详细说明一下:

龙岩市上杭县、潍坊市寿光市 ,邵阳市洞口县、北京市平谷区、哈尔滨市阿城区、宜宾市长宁县、牡丹江市爱民区、东莞市石龙镇、河源市和平县、昌江黎族自治县海尾镇、甘孜康定市、白山市长白朝鲜族自治县、宿迁市宿城区、湛江市霞山区、汕尾市城区、黄南河南蒙古族自治县、上海市金山区 、内蒙古呼伦贝尔市根河市、南平市浦城县、自贡市大安区、文昌市东郊镇、鹤壁市淇滨区、商丘市永城市、合肥市肥西县、长治市武乡县、岳阳市平江县、太原市古交市、上饶市弋阳县、惠州市惠城区、深圳市罗湖区、广西防城港市东兴市

全球服务区域: 吉安市万安县、乐东黎族自治县佛罗镇 、佳木斯市向阳区、厦门市翔安区、信阳市浉河区、黔西南望谟县、焦作市孟州市、南京市江宁区、玉溪市红塔区、乐东黎族自治县佛罗镇、榆林市神木市、韶关市始兴县、广西钦州市灵山县、伊春市丰林县、新乡市原阳县、金华市武义县、伊春市伊美区 、文山丘北县、楚雄武定县、商洛市商南县、荆门市京山市、佳木斯市桦川县

本周数据平台近期相关部门公布权威通报,,华纳娱乐公司官方客服电话:您的贴心服务指南,很高兴为您解答这个问题,让我来帮您详细说明一下:

全国服务区域: 吉安市峡江县、湘潭市雨湖区 、哈尔滨市道里区、延安市安塞区、上饶市万年县、焦作市中站区、湛江市廉江市、广安市邻水县、六盘水市盘州市、武汉市江岸区、六盘水市钟山区、遵义市正安县、广安市岳池县、榆林市清涧县、重庆市大渡口区、周口市淮阳区、汉中市佛坪县 、湖州市德清县、陵水黎族自治县椰林镇、昆明市西山区、自贡市富顺县、张家界市桑植县、昆明市石林彝族自治县、成都市新津区、南阳市唐河县、雅安市雨城区、广西北海市合浦县、抚州市南城县、齐齐哈尔市克东县、驻马店市西平县、六盘水市盘州市、内蒙古赤峰市松山区、晋城市沁水县、郴州市资兴市、天津市武清区、中山市港口镇、沈阳市苏家屯区、齐齐哈尔市克东县、十堰市郧西县、陵水黎族自治县椰林镇、赣州市定南县

24小时维修咨询热线,智能语音导航:,华纳娱乐公司官方客服电话:您的贴心服务指南

在当今这个信息爆炸的时代,娱乐产业成为了人们生活中不可或缺的一部分。而华纳娱乐公司,作为全球知名的娱乐巨头,其旗下拥有众多深受观众喜爱的电影、电视剧和音乐作品。为了更好地服务广大消费者,华纳娱乐公司设立了官方客服电话,为用户提供全方位的咨询和帮助。下面,就让我们一起来了解一下华纳娱乐公司的官方客服电话及其相关服务。 ### 华纳娱乐公司官方客服电话 华纳娱乐公司的官方客服电话是:400-xxx-xxxx。这个电话号码是专门为华纳娱乐的用户提供服务的,无论您是想要咨询电影、电视剧的上映信息,还是需要了解音乐作品的发行情况,都可以通过这个电话进行咨询。 ### 官方客服电话的服务范围 1. **电影咨询**:如果您对华纳娱乐公司旗下的电影作品感兴趣,可以通过官方客服电话了解电影的上映时间、地点、主演等信息。同时,客服人员还会为您解答关于电影拍摄、制作等方面的疑问。 2. **电视剧咨询**:华纳娱乐公司旗下拥有众多热门电视剧,官方客服电话可以为您提供电视剧的播出时间、剧情简介、主演阵容等信息。此外,客服人员还可以为您解答关于电视剧制作、编剧等方面的疑问。 3. **音乐作品咨询**:华纳娱乐公司在音乐领域也拥有丰富的作品,官方客服电话可以帮助您了解音乐作品的发行时间、歌手阵容、专辑曲目等信息。同时,客服人员还会为您解答关于音乐制作、音乐风格等方面的疑问。 4. **活动咨询**:华纳娱乐公司会定期举办各类活动,如电影首映式、粉丝见面会等。官方客服电话可以帮助您了解活动的相关信息,包括活动时间、地点、门票购买等。 5. **售后服务**:如果您在购买华纳娱乐公司的产品时遇到问题,官方客服电话可以为您提供售后服务,帮助您解决购买过程中遇到的问题。 ### 如何拨打官方客服电话 1. 拨打华纳娱乐公司官方客服电话:400-xxx-xxxx。 2. 根据语音提示,选择您需要咨询的服务项目。 3. 与客服人员沟通,详细描述您的问题。 4. 客服人员会尽快为您解答问题,并为您提供相应的帮助。 ### 总结 华纳娱乐公司官方客服电话是广大消费者了解和咨询公司相关信息的便捷途径。通过拨打这个电话,您可以轻松获取电影、电视剧、音乐作品以及各类活动的最新信息。同时,官方客服电话还为您提供售后服务,解决您在购买过程中遇到的问题。为了更好地享受华纳娱乐公司带来的精彩内容,请记住这个重要的联系方式:400-xxx-xxxx。

本文来自微信公众号:字母 AI,作者:袁心玥,编辑:王靖,题图来自:AI 生成Transformer 的奠基人,开始参与寻找 Transformer 之后的下一步。Google 工程副总裁、Gemini 模型联合负责人 Noam Shazeer 在 X 上宣布,自己将离开 Google,加入 OpenAI。Shazeer 是《Attention Is All You Need》的核心作者之一,最早的 "Transformer 八子 " 就有他的名字。从 GPT 到 Claude、从 Gemini 到几乎所有主流大模型,现代 AI 的底层结构都绕不开 Transformer,而 Shazeer 正是最早参与定义这套结构的人之一。2024 年,Google 曾通过一笔约 27 亿美元的技术授权与人才回流交易,把 Shazeer 和部分 Character.AI 团队重新请回 Google,让他参与 Gemini 模型研发。不到两年后,这位 Gemini 联合负责人再次离开 Google,转身去了 OpenAI。据 OpenAI 首席研究官 Mark Chen 发帖,Shazeer 将担任 OpenAI 新的架构研究负责人。Sam Altman 也发帖表示,从 OpenAI 创立之初,Noam 就是他最想合作的人之一。他等这一天等了十年,但很值得。被 Google 反复追回的人,又离开了 GoogleNoam Shazeer 并不是第一次离开 Google,从他的领英账号来看,他的职业生涯几乎一直在和谷歌 " 拉拉扯扯 "。Shazeer 曾在 2024 年 8 月播出的 Dwarkesh Podcast 访谈中说,自己似乎每隔 12 年就会重新加入一次 Google:2000 年一次,2012 年一次,2024 年又一次。2000 年 12 月,Shazeer 加入 Google,成为公司早期的软件工程师。那时的 Google 还很年轻,他也是最早一批加入公司的工程师之一。Shazeer 最早参与的重要项目之一,是改进 Google 搜索的拼写纠错系统。但他感兴趣的不只是搜索——还有 AI。他在播客里说,自己当年加入 Google,有一个很朴素的想法:先赚一些钱,以后就可以长期做 AI 研究。2009 年,Shazeer 曾短暂离开 Google。公开资料并没有详细说明这次离开的原因。后来他在播客中回忆,几年后自己回 Google 和妻子吃午饭,碰巧坐到了 Jeff Dean 和早期 Google Brain 团队旁边,被那群人重新吸引。2012 年,Shazeer 重新加入 Google。那一年,Google Brain 正处在早期阶段,Jeff Dean 等人正在把深度学习从研究项目推进到 Google 内部更核心的位置。这次回归也让 Shazeer 从早期搜索工程体系,转向 Google 的 AI 主航道。几年后,Shazeer 的名字开始真正进入现代 AI 史。2017 年,他和 Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin 等人共同发表《Attention Is All You Need》,提出了 Transformer 架构。后来发生的事情,已经不需要太多解释。几乎所有主流大模型,底层结构都绕不开 Transformer。Transformer 之外,Shazeer 很早就参与推动稀疏 MoE,也就是混合专家模型——这条路线的核心思想是,不让每次计算都激活整个模型,而是根据不同输入调用不同 " 专家 " 模块,从而在扩大模型容量的同时控制计算成本。后来,MoE 成为大模型扩展和效率优化的重要方向。2021 年,Shazeer 和 Google 同事 Daniel De Freitas 离开公司,创办 Character.AI。据传,这件事的导火索是 Google 拒绝公开发布他们参与开发的一款聊天机器人。那款产品最初名为 Meena,目标是让 AI 能围绕广泛话题展开自然对话。据《华尔街 · 日报》报道,Shazeer 曾在一份内部备忘录《Meena Eats the World》中预测,这类聊天机器人有可能取代 Google 搜索,并创造数万亿美元收入。但 Google 没有选择发布它,高管给出的理由包括安全性和公平性风险。对 Google 来说这或许是谨慎,但对 Shazeer 这样的人来说,更像是一个巨大机会被放下——而机会被放下,往往意味着被错过。所以 Shazeer 离开了。一年后,OpenAI 用另一种方式证明了 Shazeer 的判断。2022 年 11 月,ChatGPT 让全世界意识到,聊天机器人可能成为普通人接触 AI 的第一入口。Character.AI 也在这股浪潮中快速起势。2023 年 3 月,Character.AI 完成 1.5 亿美元融资,估值达到 10 亿美元。它主打各种可对话的 AI 角色,用户可以和实用助手、虚构人物甚至名人形象聊天。当年没有放行 Meena 的 Google,最后又不得不把 Shazeer 请回来。2024 年,Google 与 Character.AI 达成一笔特殊交易:Google 获得 Character.AI 的部分技术授权,同时把 Shazeer、Daniel De Freitas 以及部分研究团队带回 Google DeepMind。为了拿到技术和人,Google 付出的代价高达约 27 亿美元。据《华尔街 · 日报》报道,Shazeer 也因为持有 Character.AI 股份,在这笔交易中获得了数亿美元收益。换句话说,Google 当年拒绝发布的聊天机器人路线,最后以另一种昂贵的方式回到了 Google。回归后,Shazeer 加入 Gemini 核心领导层,参与 Google 最重要的大模型研发。他的头衔变成了 Google 工程副总裁、Gemini 模型联合负责人。不到两年后,剧情又迎来转折—— Shazeer 又一次离开 Google。这一次,他去的是做出 ChatGPT 的 OpenAI。细想来,他的故事多少像是一段关于 chatbot 的孽缘。Transformer 之后,下一个改变时代的架构据 OpenAI 首席研究官 Mark Chen 的说法,Shazeer 将担任 OpenAI 新的架构研究负责人。过去几年,大模型行业最熟悉的叙事是 scaling law:更多数据、更大模型、更多算力、更长上下文,带来更强能力。但从 2024 年开始,越来越多迹象表明,单纯扩大预训练规模的边际收益正在下降。Ilya Sutskever 曾公开表示,预训练作为过去几年最重要的 scaling 配方,正在接近数据和方法上的边界;如果只是把规模再放大 100 倍,并不会自动带来下一次 GPT-3 到 GPT-4 式的跨越。另一方面,Transformer 本身的短板也开始暴露出来。前些年,大家还会把问题理解成 " 模型还不够大 " 或者 " 上下文还不够长 ",但现在越来越多研究显示,很多能力瓶颈并不只是规模问题,而是架构问题。比如,长上下文不等于真正记忆。模型可以在几十万甚至上百万 token 的上下文里检索信息,但这不代表它真的维护了一个稳定的内部状态。它能回看过去,不等于它清楚当下的情况。再比如,思维链不等于真正推理。Chain-of-Thought、reasoning model、test-time compute 的流行,说明模型确实需要更多中间计算。但如果每一点状态变化、每一个简单推理,都要靠显式文字写出来,再重新喂回模型,本质上是一种非常昂贵的补丁。Google DeepMind 前段时间发的论文《The Topological Trouble With Transformers》(Transformer 的拓扑困境),讨论的就是上述问题。论文指出,纯前馈 Transformer 在动态状态追踪上存在结构性短板。Transformer 很擅长回看上下文,却不天然擅长维护一个持续变化的内部状态。论文举了几个直观的例子:模型可以在上下文里看到前面的对话,却仍然在多轮交互里出现前后不一致;它可以看到关于 "bank" 的上下文,却在后续问题里从把这个词从 " 河岸 " 理解成 " 银行 ";它也可能在猜数字游戏里给出互相矛盾的反馈。如果一个模型只是把过去全部放进窗口里,再通过注意力机制去查找,它更像是在翻一本很长的笔记,而不是持续拥有一个会更新的记忆。说起来,这背后甚至带有一点认知科学和哲学意味。以人类本身为例,人的记忆和想象力共享一个高度重叠的核心神经网络——记忆并不是把过去完整存档,然后在需要时原样调取。很多时候,记忆更像是一种回溯性的重建:大脑在当下重新组织线索、补全语境,并把过去、想象和判断混合成一个可以行动的状态。真正的智能,尤其是长程推理、多轮对话、规划、代码代理和复杂任务执行,需要的不止是回顾过去,还要理解当下实在的状态。当然,Transformer 毕竟是很久之前的底层架构,这篇说的 " 短板 " 其实更像是放在现在的评价框架里去看过去的一个架构。但也恰恰说明,Transformer 未必一定适合我们当下对于智能的需求。现在围绕 Transformer 的改造已经层出不穷:MoE 试图解决参数规模和计算成本之间的矛盾;高效解码试图降低推理成本;长上下文试图扩展模型的记忆边界;state-space model、递归结构、latent reasoning、test-time compute,则试图补上状态追踪、长期一致性和动态推理的短板。AI 行业渐渐形成了一个新的共识——下一代模型不能只是更大的 Transformer,它必须更会组织计算、更会维护状态、更会在推理过程中更新自己对世界的表示。于是,架构问题又被翻了出来。Shazeer 加入 OpenAI 的象征意义就在于此,架构研究负责人这个岗位指向的,正是前沿模型竞争最底层的问题。这让 Shazeer 的跳槽不再是 "Transformer 之父去 OpenAI 继续加强 Transformer" 的故事,更像是一个参与定义 Transformer 时代的人,开始参与寻找 Transformer 之后的下一步。机会成本、人才战争和下一代模型对 Google 来说,Shazeer 的离开当然是损失——这个损失并不只是少了一位 Gemini 联合负责人,还指向 Google AI 史里那个反复出现的问题:它常常很早看到未来,却未必能最快把未来推到用户面前。Shazeer 在播客中回忆,Larry Page 以前常说,Google 第二大的成本是税,最大的成本是机会成本。(以防万一,Shazeer 还补了一句:如果 Page 没说过,那自己已经误引他很多年了。)Google 拥有世界上最强的研究人员、最完整的工程体系、最先进的 TPU 和数据中心、以及足够庞大的产品入口。但越是这样的大公司,越要在安全、公平、组织边界和产品化风险之间反复权衡。在 AI 这样一个窗口期极短的行业里,谨慎本身可能是必要的,但谨慎也可能变成昂贵的延迟、机会的流失。而对 OpenAI 来说,Shazeer 的加入,意义非常重大——就连 Sam Altman 都表示 " 从 OpenAI 创立之初,Noam 就是他最想合作的人之一 "。OpenAI 得到的是一组极其稀缺的经验集合:Transformer、MoE、大规模训练、高效解码、对话模型、基础模型工程,以及在 Google 这种超大规模系统里多年打磨出来的架构直觉。大模型架构研究并不是提出一个漂亮想法就结束了。Shazeer 在播客里说过,小规

文章点评

用户
内容详细专业,对我帮助非常大!
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。