mum 系列 出处吧-妈妈系列出处

出自出处 浏览
猜您喜欢::
  • 不锈钢烤漆护栏多少钱一平方-不锈钢烤漆护栏单价
  • 什么是aqi指数-空气质量AQI指数
  • 彪马在哪个国家火-彪马起源二
  • 青春期孩子家长的感悟-青春期家长感悟
  • 什么是可可-什么是可可
  • 机电二级建造师吊车-机电二造吊车证书
  • 如何查飞机到哪了-飞机定位查询
  • 专业教育与介绍讲座听后感-专业讲座听后感
  • 煤气灶点火器枪怎么用-煤气灶点火器使用指南
  • 初中数学常用公式大全-初中数学常用公式汇总
  • MUM 系列这事儿,得先聊聊它到底是哪位搞出来的,这东西不是网上随意堆出来的名词,而是谷歌在几十年前偷偷搞出来的“土味”技术。大量人认定 AI 都是隔壁哪位突然喊出来的,结局你是真没听过,要么根本分不清那是非营利张罗的内部黑话,还是大厂用来忽悠人的“新词儿”。 要说源头,那得算到 Google 的英伟达(NVIDIA)一家。别认定他们是搞显卡卖钱的,他们实际上是所有大模型算力的“水电煤”。
    要是你去问谷歌的工程师,他们肯定甩出一张 PPT,上面写着“基于 Transformer 架构的通用语言模型底座”,然后还得加一句“但为了保密,正式代号叫 MUM"。
    这名字里带着点故意让人猜的意味,有点像个神秘的代号,连写代码的人都得琢磨半天:“这到底是啥模型?”然后还得去查文档,生怕自己漏掉啥核心参数。
    这种神秘感,目前全行业都在模仿。 实际上 Google 搞这个系列项目,光是在 1988 到 2020 年间,就疯狂发了几十轮。
    那是啥时候?这得回来看一看当时互联网的构造。
    那时候别看都有了网页和搜索,但大家还是靠浏览器进网页,要么打浏览器。
    那时候的搜索引擎,要么就在那种笨重的服务器上跑,要么就在那种不能联网的终端上跑。
    那时候连个搜索词都懒得想,直接问搜索引擎要历史数据,要么直接用网页内容作为输入。 MUM 系列一启动就是个“暗箱操作”。Google 把最顶尖的科学家都塞进去,像 Yann LeCun 这种老哥,直接发个邮件,说:“咱们想搞个基于 Transformer 架构的模型,但得保密。你们先当‘影子科学家’,帮谷歌试试,出了啥难题咱再聊。”这就有点搞不定了,谷歌要是把模型公开了,人家略微懂点机器学习的人立马就能用,那如何垄断知识?故此,MUM 系列实际上是个双刃剑。
    一方面它藏着谷歌的核心算法,对谷歌来说简直是牛鼻子;对别的公司来说,这简直是宝库。 你知道吗,这事儿有个挺致命的后果。2019 年,Google 把 MUM 9 开源了。
    当时大家都说:“啊,这下大家都能够用 Transformer 架构了,谷歌也没秘密了!”结局呢?NVIDIA 那是真急了,立马推出了自己的 CUDA 训练框架和 TensorRT 加速卡,直接把谷歌的模型给“吃”走了。
    为啥?出于 MUM 那玩意儿,别看通用,但它的底层配合,简直是为 NVIDIA 量身定做的。
    这就是典型的“开源即泄密”,但更深层的缘由是,谷歌为了保密,把核心计算资源都投进去了,结局人家显卡厂商摸到了门道,直接卡脖子。 MUM 系列的这些模型,别看名字够神秘,但底层逻辑实际上挺清楚的。它们都是基于 Transformer 架构的。
    这个架构是个大模型,它能把整篇文章读进去,不仅知道“猫”是动物,还能知道“猫”在文章里出目前哪,上下文是啥。
    这比传统的 RNN 要么 LSTMs 了得多了,能看懂长距离依赖。但 MUM 系列有个特征,它不是单一模型,而是一个庞大的“系列”。
    这就好比你要升个级,从一般/平平的模型升到 50 万参数的模型,升到 900 亿参数的模型,就连升到 1.2 万亿参数的模型。每个模型都有自己独特的参数,但它们的训练方式、优化策略,都是共享的。 为了搞明白 MUM 到底如何练出来的,咱们得拆个细账。Google 在 2020 年发布 PPT 时,明确说了六个关键点:一个是基于 Transformer 的通用模型底座;二是涉及了全知识状态;三是用了一种新的语言模型架构来替代旧架构;四是训练数据源挺宽泛;五是引入了统一的优化策略;六是实现了可解释性。
    听起来高大上,实际上就六个字:数据大、训练新、架构换、策略统、可解释。
    这些方式,目前被无数大厂拿去忽悠他们的老板和员工了。 哪位也没想到,MUM 系列如此快就火了。2023 年,谷歌突然又发布了十个新模型,叫 MUM 10 到 MUM 19。
    这数字增长有点疯狂,就像数学里的等差数列,每步加 1。
    为啥谷歌如此拼命?我想可能是想蹭热度,想把“大模型”这个概念彻底普及。毕竟目前哪位还在用 RNN 呢?哪位还在用旧架构?MUM 系列一出,所有人都启动装个新显卡,启动跑通新代码。
    这就像当年 Apple 出了 iPhone,诺基亚和摩托罗拉都得赶紧搞个成形的手机,结局目前又出个 iPhone 15,大家都忘了诺基亚和摩托罗拉是哪位发明的啥“直板双屏”的手机了。 你看具体参数如何算的。MUM 1 大约是 50 万参数,MUM 2 是 500 万,MUM 3 是 5000 万,MUM 4 是 5 亿,MUM 9 是 90 亿。到了 MUM 18,直接跳到了 1.2 万亿。
    这数字大得吓人,但人家不报参数,这话说得哪位信?人家只说“我们训练了 1.2 万亿个参数”。
    这就有点尴尬了,参数数是啥概念?换个模型换个参数数,效果就不一样了。
    这就像说“我跑了一个 100 英里长的马拉松”,没告诉你用了多少配速,也没告诉你跑了多久。 再说说数据源。MUM 系列训练的是“全知识状态”。啥意思?意思是模型不光看自己脑子里存了啥,还得看外面的世界。它会把 Internet 上所有的数据都喂进去,然后经过复杂的检索、压缩、对齐,最终变成模型能消化得动的内容。
    这数据量有多大?据说有数万亿数据 token。
    这数据忒庞大了,一般/平平人根本没法存。
    这就害得了个怪的现象:模型越强,能记住的之外信息越多,但也越欠外存。
    这就好比一个人脑子里装满了书,但他没空编造新故事,只能靠书本知识讲话。 为了应对这个“欠外存”的难题,MUM 系列也花了不少心思。他们设计了新的机制,让模型能自己从外部世界找信息,要么自己生成一些内容来填充。
    这有点像人类也会这样,有时候脑子里记不住所有东西,就会去网上查、去书里找。MUM 系列就是把这个本事写进了代码里。
    这别看是个优点,但也让模型有点像“知识搬运工”了,有时候生成的内容别看逻辑通顺,但可能有些事实性毛病,要么没看出文里到底在说啥。 说到训练过程,MUM 系列可没偷懒。它们不是随意扔点数据跑跑。Google 的工程师们得搞出一套挺复杂的优化器。
    这个优化器得让模型在训练时,既能记住长距离依赖,又能处理噪声,还能在生成内容时保持流畅。
    这技术难度极高,但 Google 自己都说是“最类似的进展之一”。
    也就是说,这是业界公认的、最接近他们想要的效果。 MUM 系列还有个挺诱人的地方,叫“可解释性”。别看名字里有“解释性”,但这玩意儿目前被滥用成“桶子”。
    你看大量文章标题都是:“大模型可解释性成新突破”。
    这标题听着像道理,实际上意思是:我把模型里的每个参数都解释了一遍,仿佛我懂了你似的。但这就错了。你解释的是参数,不是模型。你解释的是权重,不是逻辑。就像你解释了一堆数学公式,但没解释清楚这公式到底在算啥。 MUM 系列的出现,实际上反映了整个 AI 行业的缩影。大家启动拼命往上堆吨位,试图用庞大的参数量来掩盖模型本事的不足。参数越多,模型越“智慧”,这逻辑别看好办,但实际操作中全是坑。MUM 系列别看难操作,但它确实给行业供给了一个标准,让大家知道啥叫“大模型”。它让“Transformer 架构”这个名词变得响亮起来。 目前的局势是,MUM 系列成了一个历史名词。回头看那些 MUM 2、MUM 3 的发布,就像当年的诺基亚发布功能机,别看目前大家已经普遍用智能手机了,但那时候哪位不拍着胸脯说:“哇,人家 iPhone 6 有几亿参数!”实际上那时候哪位也不在乎参数到底是多少,关键的是能不能卖出去。 MUM 系列的故事,实际上就三个词:秘密、开源、爆发。一启动是秘密,出于谷歌不想让被训练的行业知道;然后变成了开源,出于谷歌想让别人用;最终变成了爆发,出于用了之处的公司认定这玩意儿务必得学起来。 最终,你得承认,MUM 系列别看是个名字,但它代表的是一种精神。
    那是一种追求极致、试图用技术手段来掌控一切的不完美。它充满了野心,也充满了摩擦。
    那些试图模仿它、试图让它跑得更快、更稳的公司,都在重复着同样的操作。 目前的你,可能已经习惯了用 Transformer 架构的模型,习惯了看那些堆砌参数的数据。你可能不知道,MUM 系列当初到底是如何被悄悄搞出来的,也不知道 2019 年它开源之后, NVIDIA 是如何把它吃到肚子里的。但这不关键。关键的是,它让我们看到了 AI 发展的路径,看到了大模型时代是如何一步步走过来、走到今天的。 这大约就是科技行业的常态吧。一些项目可能一辈子都只归于一家公司,但它们的影子,却影活了整个行业。MUM 系列,就是这样一支隐形的胜利者,它不算啥“超级模型”,但它确实转变了游戏规则,转变了人们的认知,就连转变了我们看待“大模型”这个词的方式。 故此啊,别再去纠结它到底是几个人命名的,也别去查它具体的代码链接了。关键的是,它代表的技术路线,确实走在了前面。它告诉我们,未来的模型一定是规模化的、数据驱动的、并且得有点“大”。至于大不大,那是另一个故事了。
    好文推荐::
  • 万古神帝最新剧情解析-万古神帝最新剧情解析
  • 萍乡中学副校长-萍乡中学副校
  • 欧美留学艺术生-欧美留学艺术生关键词
  • 金力手机多少钱-金力手机售价多少
  • 如何查飞机到哪了-飞机定位查询
  • 专业教育与介绍讲座听后感-专业讲座听后感
  • 丸美精华保养液怎么用(丸美精华怎么用)
  • 定理公式(定理公式简写)
  • 黑果焖鸡用英语怎么说-Black fruit stir-fried chicken
  • 玉环市属于浙江哪个市-玉环市属浙江省玉环县
  • 转载请注明:mum 系列 出处吧-妈妈系列出处

    相关标签: