返回

我的学习群里全是真大佬

首页
关灯
护眼
字体:
第393章 免费,专业知识有点多
上一章 目录 下一章
『章节错误,点此报送』
  ……

  姚先生在黑板上画了一道曲线,上面稀稀拉拉点了七八个点。

  “我先问你们一个特别外行的问题,”他转过身带着点笑意,“七个点,我要拿一条曲线把它们全串起来,按你们高中学的几次的多项式够用?”

  底下有人小声答:“六次。”

  “对,六次就够,七个点七个系数,严丝合缝。”

  姚先生点了点头。

  “那我要是给它配上一百万个系数呢?”

  这下教室里安静了下来。

  姚先生这里其实就是在说AI模型了。

  如果模型的参数比已知的数据点还要多,为了死死踩中这七个点,这条曲线就势必会在空隙处剧烈震荡,把真实的走势扯得稀烂。

  这也是算法界永远绕不开的一道坎——偏差与方差的权衡。

  简单的说就是模型太简单了脑容量不够,这叫叫欠拟合。

  模型太复杂了又会把数据里那些干扰项当成真理给记下来,当你换道它没见过的新题时,它就会当场抓瞎,这就叫过拟合。

  参数越多,这过拟合的症状,理论上就越致命。

  几十年来,大家都是这么觉得的。

  “可现在的事,邪门就邪门在这儿。”

  姚先生在“一百万”那个数字底下画了道线。

  “我们今天拿来用的那些大模型,参数动辄上千亿,远比喂给它的数据还多。”

  “照理说它们早该过拟合到没法看了。”

  “可它们偏偏没有。”

  “它们不光没烂,反而学得一个比一个好。”

  他转过身在黑板上写下三个字。

  【为什么?】

  接下来,姚先生才真正进了正题。

  他要讲的是过参数化网络的损失景观。

  所谓损失景观,可以想象成一片起伏的山地。

  模型里每一个参数,都是一个能拧的旋钮,上千亿个旋钮拧出来的每一种组合,都对应着这片地面上的一个点,而这个点的海拔高低,就是模型在这种组合下犯的错有多大。

  (本章未完,请点击下一页继续阅读)
第393章 免费,专业知识有点多(2/3).继续阅读
《 加入书签,方便阅读 》
上一章 目录 下一章