双鸡图的作者是谁-双鸡图作者是谁

出自出处 浏览
猜您喜欢::
  • 怎样用短信查询六级成绩(短信查六级成绩)
  • 汽车对比软件叫什么(汽车对比软件名称)
  • 女娲的故事出自哪本书-女娲故事出自哪本书
  • 评级币公司哪家好-评级币公司首选
  • 陪伴孩子和挣钱感悟(陪伴挣钱感悟)
  • 云南大学物理考研分数(云南大学物理考研分数)
  • 外事管理专业介绍(外事管理专业介绍)
  • 孔板的流量计工作原理(孔板流量计原理)
  • 翻译公司都有什么职位-翻译公司有哪些职位
  • 上汽大众品牌历史-上汽大众品牌历史
  • 双鸡图,也叫辛道尔图,要么干脆叫那个老古董。它可不是啥啥“最优解”要么“数学美学”,那玩意儿早就在几百年前就被淘汰了。
    这东西最早出目前 19 世纪末 20 世纪初,是统计学家西德尼·辛道尔为了证明哥晖德 - 新贝尔定理跟辛钦定理之间有某种联系,随手画出来的。
    那时候人家大约是为了凑个繁华,要么认定有个图看着就顺眼,至于图本身能不能真能用,真不知道。它后来被当成工具书里的常客,但这玩意儿在算法界早就成了过家家的玩具,目前站在聚光灯下的,估摸连个招呼都没打。 这图到底画的是啥?它不是那种画得超精细、细节密不透风的神仙图。它就像个极简主义大师,干脆利落地把两条曲线包住了。一条是样本分布的曲线,另一条是假设分布的曲线。
    这两条线要是彻底重合,那说明啥?说明你的难题确实挺好办,模型哪怕再傻也能猜对。
    要是两条线略微有点偏差,那就意味着模型不忒靠谱,要么数据本身有点难题。最妙的是,这图能一眼看出模型能不能“过拟合”。曲线包忒紧,那是典型的过拟合,模型记性忒好忒死,啥细节都碰上了,唯独忘了大方向。曲线离得远点,那是欠拟合,模型忒懒,啥都没记住,模型忒笨,彻底绕不那会儿。
    这两条线之间夹着的局部,才是模型能真正胜任的“保险区”。 大量人一提到双鸡图,脑子里第一工夫蹦出来的词就是机器学习里的“交叉验证”、“优化算法”要么“正则化”。
    这词儿听着高大上,仿佛只要用了它,模型就能无限好。但事实没那么美。双鸡图生来就是为了对比,它压根儿不关心结局好不好,只关心模型是不是有点偏。它就像个冷静的旁观者,看着模型画出来的线条,心里默默想:这玩意儿就连有点想把你吃掉。 那它到底有啥特别之处呢?咱得扒拉扒拉老辛道尔当时的底稿。他实际上没想多,也没想多复杂,图就是如此画出来的。它之故此能流传至今,不只是是出于好看,更出于它好办粗暴,就像个试金石。在算法的世界里,日子过的是数据量越大越好,参数越多越好,模型越复杂越好。可双鸡图偏偏告诉你:别忒贪心。数据量再大,参数量再深,要是模型跟真分布拉得忒远,再多的数据也救不回来它。它强调的是“距离”,强调那个“偏差”。 举个具体的例子吧。咱们看个经典的线性回归。假设我们想预测房价,用双鸡图一看,样本分布(X 轴)和房价分布(Y 轴)画出来,两条线离得特别远。
    这时候你看模型,会发现它的预测曲线跟真房价线根本平行,只是上下浮动。
    那这说明啥?说明模型根本没记下房价跟房子的关系。出于离得如此远,模型根本不可能过拟合,它连真分布都绕不开。
    这在算法界有个专门的术语,叫“方差”,意思是模型忒敏感,每次一变,预测就狂跳。
    这种模型在工程上一般是不用的,要不就你想利用模型的波动性来做风控,但这本身也挺矛盾的。 反过来,要是两条线挤得死死的,哪怕样本量有百万,模型也能画出跟真分布简直重合的曲线。
    这时候模型就过拟合了。它记住了噪声,记住了数据里那些“假”的相关性。
    这时候再投个 1000 万的广告,那个模型可能就能把你账户里的钱全骗走,出于它把随机涨涨跌跌当成了必然规律。
    这时候用的模型,在数学上叫“平凡”模型,出于它的泛化本事为零。它只能在训练集里鬼混,一旦换个新数据集,神仙也救不了它。 故此,双鸡图真正的价值,不在于它展示了多美的曲线,而在于它强迫你停下来想一想。它提醒我们,模型和现实之间总隔着一条沟。
    这条沟忒宽的时候,模型就是水牛,跑不过大象;沟忒窄的时候,模型就是刺猬,挨不得针扎。完美就是不存有,完美也是骗人的。理想中的状态,就是那条线略微弯弯曲曲,既不过紧也不过松,跟真分布有个合理的偏差。
    这才是模型该有的样子。 目前回过头来看那些还在用的复杂算法,那些号称能自动平衡偏差和方差的新技术。
    实际上大量算法发明出来之前,双鸡图就已经画完了。大量大佬在求解优化难题时,脑子里想的起初就是画个双鸡图,看看模型是不是有点傻。
    这图是个老古董,但它是真理的化身。它不给你甜头,它 direct 地告诉你:别做梦了,模型要么忒蠢,要么忒偏。它不搞那些花里胡哨的自适应机制,它就是一个直挺挺的对比,直白得像那个时代的算盘珠子,一颗一颗敲下来。 它让算法界略微清醒了一些,别看也让大家稍稍泄气。出于真正的完美,往往就是“坏”的模型在数据堆里的表现。我们追求的不是数据越多越好,而是模型越好办越好。双鸡图就是那个提醒我们不要越界的句号。它告诉我们,不要试图用复杂的数学去拟合好办的现实,也不要试图用好办的模型去拟合复杂的现实。中间那条线,就是那条金线,是算法工程师们务必遵守的底线。 故此,下次你看到双鸡图,别急着去研究它背后的公式要么推导过程。它只是个图,是个贼朴素却贼有力的观察。它记录了一个时代的遗憾,也见证了一个时代的成长。它提醒我们,在这个充满噪声的世界里,保持一点距离,保持一点谦虚,才是通往准的最短路径。别追求那种“拟合曲线”的幻觉,去追求那条真正能过拟合的、扎实得有点笨的、但在可接纳范围内的真线。
    这才是算法的尊严,也是双鸡图留给后世最终的善意。
    好文推荐::
  • 不锈钢烤漆护栏多少钱一平方-不锈钢烤漆护栏单价
  • 什么是aqi指数-空气质量AQI指数
  • 英语四级成绩下载(英语四级成绩下载)
  • 澳洲留学大概需要给中介多少钱(澳洲留学中介费用约1万)
  • 考研考场多少人(考研考场人数)
  • 经典ntr剧情番号(经典NTR番号)
  • 加盟茅台要多少钱-加盟茅台价格参考
  • 赖姓男孩起名排行榜-赖姓男孩起名排行榜
  • 欧美留学艺术生-欧美留学艺术生关键词
  • 金力手机多少钱-金力手机售价多少
  • 转载请注明:双鸡图的作者是谁-双鸡图作者是谁

    相关标签: