模型崩溃:是指用大语言模型的生成数据,重复训练大语言模型,会导致训练出的模型,出现不可逆转的缺陷。</P>
即使,模型最初的基础架构原始数据,来自真实人类世界的数据。</P>
形象比喻,就是近亲繁殖。</P>
再形象比喻,就是1080p→720p→bd-R→dVp→dVdscr→tc-tS。</P>
大多数同志们,肯定有切肤之痛、深切体会。</P>
看片肯定1080p最爽,最不爽就是tS格式。</P>
模型崩溃就是从原始的1080p格式退化成tS电影。</P>
让人几乎没有任何观影的兴致。</P>
即便它可能带有原始情节、充斥原始欲望、饱含原始冲动。</P>
李飞、辛顿、苏茨克维、克里切夫斯基四人都是专业人士,一听就懂。</P>
“这非常有可能!”</P>
“maybe!”</P>
“我应该理解了。”苏茨克维恍然大悟:</P>
“就像通常以Jpeg格式反复存储图像,每一次存储就会丢失部分信息,直至完全失真,最终崩溃。”</P>
“对,我们都忽略了这一点。”辛顿说:</P>
“目前,全球各大公司都在深度研究与大预言模型……”</P>
“互联网上已经有不少语言模型的生成数据。”</P>
“而我们通过自动抓取这些内容来训练模型,很可能会强化原本就错误的结论……”</P>
“语言模型一旦被这种错误结论固化,就非常顽固,很难纠正。”</P>
“我可以这样理解,用语言模型创作周杰轮的歌曲,得到的是一首风格相似但才情缺失的口水歌……”李飞说:</P>
“而如果再用这首歌来训练模型,得到的下一首很可能既无才情,又不会有风格,四不像。”</P>
周杰轮是谁?</P>
辛顿、苏茨克维和克里切夫斯基不懂。</P>
“可以理解为泰勒斯威夫特。”李飞替换了一个名字。</P>
辛顿、苏茨克维和克里切夫斯基懂了。</P>
“我也是这么理解的,语言模型可以产生意识,那么也应该会有碳基生命类似的问题。”常乐说。</P>
“老板,这简直就是天才判断。”克里切夫斯基非常认同:</P>
“就像朊病毒一样,致死率100%,这是刻在人类基因上的禁令。”</P>
“我们可以用实验来支撑这个判断。”苏茨克维说。</P>
怎么实验?</P>
用wechatGpt最初的版本进行文本生成实验。</P>
先用第一代生成数据喂养wechatGpt1.0;</P>
再用wechatGpt1.0生成的数据重复喂养。</P>
恩,自己拉、自己吃;</P>
自己吃完、再拉、再吃;</P>
恶心不死你。</P>
好。</P>
大体方向和验证思路确定,接下来就是实践。</P>
“老板,您今天来原本是有事吗?”李飞问。</P>
“对,找几个懂手机和系统的研发人员,帮我看看这部手机,有没有隐藏的App或者可执行文件。”常乐说。</P>
“好,这是mate20?”李飞问。</P>
“mate20pRo,小批量供应,没有发布,菊厂送过来让我体验一下,提一提建议,注意保密。”常乐说。</P>
常乐的手机很多。</P>
菊厂、米厂每年都会送几部未发布的样机。</P>
有些样机压根就不会出厂,停留在工程机阶段。</P>
“明白,没有问题。”李飞点头。</P>
李飞动作很快。</P>
半个小时后,他拿着这部手机走过来,对常乐说:</P>
“老板,这台手机很新,没有什么隐藏App和可执行文件。”</P>
“就连缓存文件都很少,只有几个儿歌App的使用记录。”</P>
“哦,谢谢。”常乐接过手机,点头。</P>
“老板,应该的。”</P>
“验证的事情抓紧一点,有了结果,告诉我,我先走了。”</P>
“好。”</P>
回到家,常乐将手机交给江夏。</P>
“怎么样?”江夏接过手机,问。</P>
“李飞他们看了,系统很干净,没有任何隐藏App和可执行文件。”常乐摇头说。</P>
“这个黑客手脚很干净,一点痕迹都没有留下。”江夏断定是黑客所为。</P>
她可是亲眼看见小常江对着手机有说有笑。</P>