mum 系列出处吧-妈妈系列出处-出自出处-静秋百科网

猜您喜欢：：

MUM 系列这事儿，得先聊聊它到底是哪位搞出来的，这东西不是网上随意堆出来的名词，而是谷歌在几十年前偷偷搞出来的“土味”技术。大量人认定 AI 都是隔壁哪位突然喊出来的，结局你是真没听过，要么根本分不清那是非营利张罗的内部黑话，还是大厂用来忽悠人的“新词儿”。要说源头，那得算到 Google 的英伟达（NVIDIA）一家。别认定他们是搞显卡卖钱的，他们实际上是所有大模型算力的“水电煤”。
要是你去问谷歌的工程师，他们肯定甩出一张 PPT，上面写着“基于 Transformer 架构的通用语言模型底座”，然后还得加一句“但为了保密，正式代号叫 MUM"。
这名字里带着点故意让人猜的意味，有点像个神秘的代号，连写代码的人都得琢磨半天：“这到底是啥模型？”然后还得去查文档，生怕自己漏掉啥核心参数。
这种神秘感，目前全行业都在模仿。实际上 Google 搞这个系列项目，光是在 1988 到 2020 年间，就疯狂发了几十轮。
那是啥时候？这得回来看一看当时互联网的构造。
那时候别看都有了网页和搜索，但大家还是靠浏览器进网页，要么打浏览器。
那时候的搜索引擎，要么就在那种笨重的服务器上跑，要么就在那种不能联网的终端上跑。
那时候连个搜索词都懒得想，直接问搜索引擎要历史数据，要么直接用网页内容作为输入。 MUM 系列一启动就是个“暗箱操作”。Google 把最顶尖的科学家都塞进去，像 Yann LeCun 这种老哥，直接发个邮件，说：“咱们想搞个基于 Transformer 架构的模型，但得保密。你们先当‘影子科学家’，帮谷歌试试，出了啥难题咱再聊。”这就有点搞不定了，谷歌要是把模型公开了，人家略微懂点机器学习的人立马就能用，那如何垄断知识？故此，MUM 系列实际上是个双刃剑。
一方面它藏着谷歌的核心算法，对谷歌来说简直是牛鼻子；对别的公司来说，这简直是宝库。你知道吗，这事儿有个挺致命的后果。2019 年，Google 把 MUM 9 开源了。
当时大家都说：“啊，这下大家都能够用 Transformer 架构了，谷歌也没秘密了！”结局呢？NVIDIA 那是真急了，立马推出了自己的 CUDA 训练框架和 TensorRT 加速卡，直接把谷歌的模型给“吃”走了。
为啥？出于 MUM 那玩意儿，别看通用，但它的底层配合，简直是为 NVIDIA 量身定做的。
这就是典型的“开源即泄密”，但更深层的缘由是，谷歌为了保密，把核心计算资源都投进去了，结局人家显卡厂商摸到了门道，直接卡脖子。 MUM 系列的这些模型，别看名字够神秘，但底层逻辑实际上挺清楚的。它们都是基于 Transformer 架构的。
这个架构是个大模型，它能把整篇文章读进去，不仅知道“猫”是动物，还能知道“猫”在文章里出目前哪，上下文是啥。
这比传统的 RNN 要么 LSTMs 了得多了，能看懂长距离依赖。但 MUM 系列有个特征，它不是单一模型，而是一个庞大的“系列”。
这就好比你要升个级，从一般/平平的模型升到 50 万参数的模型，升到 900 亿参数的模型，就连升到 1.2 万亿参数的模型。每个模型都有自己独特的参数，但它们的训练方式、优化策略，都是共享的。为了搞明白 MUM 到底如何练出来的，咱们得拆个细账。Google 在 2020 年发布 PPT 时，明确说了六个关键点：一个是基于 Transformer 的通用模型底座；二是涉及了全知识状态；三是用了一种新的语言模型架构来替代旧架构；四是训练数据源挺宽泛；五是引入了统一的优化策略；六是实现了可解释性。
听起来高大上，实际上就六个字：数据大、训练新、架构换、策略统、可解释。
这些方式，目前被无数大厂拿去忽悠他们的老板和员工了。哪位也没想到，MUM 系列如此快就火了。2023 年，谷歌突然又发布了十个新模型，叫 MUM 10 到 MUM 19。
这数字增长有点疯狂，就像数学里的等差数列，每步加 1。
为啥谷歌如此拼命？我想可能是想蹭热度，想把“大模型”这个概念彻底普及。毕竟目前哪位还在用 RNN 呢？哪位还在用旧架构？MUM 系列一出，所有人都启动装个新显卡，启动跑通新代码。
这就像当年 Apple 出了 iPhone，诺基亚和摩托罗拉都得赶紧搞个成形的手机，结局目前又出个 iPhone 15，大家都忘了诺基亚和摩托罗拉是哪位发明的啥“直板双屏”的手机了。你看具体参数如何算的。MUM 1 大约是 50 万参数，MUM 2 是 500 万，MUM 3 是 5000 万，MUM 4 是 5 亿，MUM 9 是 90 亿。到了 MUM 18，直接跳到了 1.2 万亿。
这数字大得吓人，但人家不报参数，这话说得哪位信？人家只说“我们训练了 1.2 万亿个参数”。
这就有点尴尬了，参数数是啥概念？换个模型换个参数数，效果就不一样了。
这就像说“我跑了一个 100 英里长的马拉松”，没告诉你用了多少配速，也没告诉你跑了多久。再说说数据源。MUM 系列训练的是“全知识状态”。啥意思？意思是模型不光看自己脑子里存了啥，还得看外面的世界。它会把 Internet 上所有的数据都喂进去，然后经过复杂的检索、压缩、对齐，最终变成模型能消化得动的内容。
这数据量有多大？据说有数万亿数据 token。
这数据忒庞大了，一般/平平人根本没法存。
这就害得了个怪的现象：模型越强，能记住的之外信息越多，但也越欠外存。
这就好比一个人脑子里装满了书，但他没空编造新故事，只能靠书本知识讲话。为了应对这个“欠外存”的难题，MUM 系列也花了不少心思。他们设计了新的机制，让模型能自己从外部世界找信息，要么自己生成一些内容来填充。
这有点像人类也会这样，有时候脑子里记不住所有东西，就会去网上查、去书里找。MUM 系列就是把这个本事写进了代码里。
这别看是个优点，但也让模型有点像“知识搬运工”了，有时候生成的内容别看逻辑通顺，但可能有些事实性毛病，要么没看出文里到底在说啥。说到训练过程，MUM 系列可没偷懒。它们不是随意扔点数据跑跑。Google 的工程师们得搞出一套挺复杂的优化器。
这个优化器得让模型在训练时，既能记住长距离依赖，又能处理噪声，还能在生成内容时保持流畅。
这技术难度极高，但 Google 自己都说是“最类似的进展之一”。
也就是说，这是业界公认的、最接近他们想要的效果。 MUM 系列还有个挺诱人的地方，叫“可解释性”。别看名字里有“解释性”，但这玩意儿目前被滥用成“桶子”。
你看大量文章标题都是：“大模型可解释性成新突破”。
这标题听着像道理，实际上意思是：我把模型里的每个参数都解释了一遍，仿佛我懂了你似的。但这就错了。你解释的是参数，不是模型。你解释的是权重，不是逻辑。就像你解释了一堆数学公式，但没解释清楚这公式到底在算啥。 MUM 系列的出现，实际上反映了整个 AI 行业的缩影。大家启动拼命往上堆吨位，试图用庞大的参数量来掩盖模型本事的不足。参数越多，模型越“智慧”，这逻辑别看好办，但实际操作中全是坑。MUM 系列别看难操作，但它确实给行业供给了一个标准，让大家知道啥叫“大模型”。它让“Transformer 架构”这个名词变得响亮起来。目前的局势是，MUM 系列成了一个历史名词。回头看那些 MUM 2、MUM 3 的发布，就像当年的诺基亚发布功能机，别看目前大家已经普遍用智能手机了，但那时候哪位不拍着胸脯说：“哇，人家 iPhone 6 有几亿参数！”实际上那时候哪位也不在乎参数到底是多少，关键的是能不能卖出去。 MUM 系列的故事，实际上就三个词：秘密、开源、爆发。一启动是秘密，出于谷歌不想让被训练的行业知道；然后变成了开源，出于谷歌想让别人用；最终变成了爆发，出于用了之处的公司认定这玩意儿务必得学起来。最终，你得承认，MUM 系列别看是个名字，但它代表的是一种精神。
那是一种追求极致、试图用技术手段来掌控一切的不完美。它充满了野心，也充满了摩擦。
那些试图模仿它、试图让它跑得更快、更稳的公司，都在重复着同样的操作。目前的你，可能已经习惯了用 Transformer 架构的模型，习惯了看那些堆砌参数的数据。你可能不知道，MUM 系列当初到底是如何被悄悄搞出来的，也不知道 2019 年它开源之后， NVIDIA 是如何把它吃到肚子里的。但这不关键。关键的是，它让我们看到了 AI 发展的路径，看到了大模型时代是如何一步步走过来、走到今天的。这大约就是科技行业的常态吧。一些项目可能一辈子都只归于一家公司，但它们的影子，却影活了整个行业。MUM 系列，就是这样一支隐形的胜利者，它不算啥“超级模型”，但它确实转变了游戏规则，转变了人们的认知，就连转变了我们看待“大模型”这个词的方式。故此啊，别再去纠结它到底是几个人命名的，也别去查它具体的代码链接了。关键的是，它代表的技术路线，确实走在了前面。它告诉我们，未来的模型一定是规模化的、数据驱动的、并且得有点“大”。至于大不大，那是另一个故事了。

好文推荐：：

万古神帝最新剧情解析-万古神帝最新剧情解析

黑果焖鸡用英语怎么说-Black fruit stir-fried chicken

玉环市属于浙江哪个市-玉环市属浙江省玉环县

转载请注明：mum 系列出处吧-妈妈系列出处

静秋号来自

mum 系列出处吧-妈妈系列出处

与本文相关的文章