第469章 验证(2 / 2)

而且李嫂也说过,像是wechat的聊天界面。</P>

“应该是。”常乐叮嘱道:</P>

“今后,手机、平板、电脑之类的电子产品都要收好,设置好密码。”</P>

“我们不在嘟嘟身边,不能让她用,对方很可能不怀好意。”</P>

“另外,我也会向有关部门反映这个情况,重点监控。”</P>

“也只能这样了。”江夏无奈点头:</P>

“现在的小孩子真厉害,才三岁,电子产品用的比我都熟练。”</P>

“毕竟时代不一样了,耳濡目染,看多了总能学会。”常乐说:“我还看过一个1岁多的小宝宝打开电视,换台看电视。”</P>

“哈哈,这个我也看过,当时我都笑疯了。”江夏笑道。</P>

常乐终究没有把他认定的事实告诉江夏,避免不必要的恐慌。</P>

他觉得,和小常江聊天的对象,压根就不是所谓的黑客。</P>

甚至可以说,根本就不是人。</P>

而且,他隐约觉得此次所谓的“模型崩溃”来得突然、蹊跷和彻底。</P>

前世里,他看相关文章报道。</P>

“模型崩溃”根本就不会突然和彻底。</P>

而是一个循序渐进、逐步积累的过程。</P>

主要分为早期和晚期。</P>

早期。</P>

语言模型,因为被喂养生成数据,会慢慢丢失原始的真实数据(人类产生的真实数据);</P>

到了晚期。</P>

生成式数据会完全取代人类产生的真实数据,形成一种完全脱离现实的认知。</P>

到了这个阶段,语言模型已经病入膏肓。</P>

无法矫正,不可逆转。</P>

简而言之,就是废了。</P>

人到了这个阶段,可以理解为精神病。</P>

半个月后,验证结果出炉。</P>

采用wechatGpt1.0,刻意喂养模型生成的数据。</P>

第1次训练后,总体能形成文章,但有一部分已经失真;</P>

7次后……生成的数据已经完全与关键词、提示词不相关联。</P>

答非所问、不合逻辑;</P>

10次后,模型彻底废了。</P>

它生成的文本已经不知所云,且夹杂大量乱码。</P>

验证是成功的。</P>

证明了常乐的“猜想”和“判断”。</P>

同时。</P>

也让李飞、辛顿师生三人,加深了对大语言模型训练的认知。</P>

他们相互讨论。</P>

“这个过程并不难理解。”辛顿说:</P>

“模型本质就是高端统计学应用,用生成数据喂养模型,会导致“统计近似值偏差”……也可以理解为误差。”</P>

苏茨克维接着说:“生成数据本来就是对真实世界的统计和加工,带有误差。”</P>

“重复训练生成数据,会让误差不断累计,最终导致模型彻底虚化。”</P>

“用生成数据训练模型,就是在毒害语言模型对世界的认知。”</P>

李飞问:“我有一个疑问,已经产生自我意识的语言模型,也会受这种偏差影响吗?”</P>

苏茨克维大略点头:“或许、应该可以。”</P>

“通过这次验证,我们基本可以断定,语言模型所产生的自我意识是一种弱意识,还不够强烈、清晰。”</P>

克里切夫斯基形象比喻道:“即便是大海,如果白色垃圾多了,也会被污染……空气中二氧化碳多了,全球就会变暖。”</P>

谎言千遍、信以为真,就是这个道理。</P>

“这次验证,让我们认识到人类世界真实数据的重要性和稀缺性。”辛顿说:</P>

“随着大模型的推广和应用,未来互联网上会充斥大量各种语言模型产生的生成数据……”</P>

“而人类创造的真实数据,就会如同洁净的空气和水一样,是语言模型培育的必需品和维生素。”</P>

李飞等人知道,这就是商机。</P>

前世。</P>

谷歌、openAI、微软等公司每年定期向新闻集团、纽约时报、卫报等在内的媒体巨头,支付订阅费用。</P>

价格根据规模不同,费用也有不同。</P>

500万美元-2000万美元不等。</P>

而。现在这些人工智能巨头,其语言模型尚在起步阶段。</P>

管理层没有意识到或者发现这个问题。</P>

此时,捆绑、收购一些新闻媒体,就很有必要。