你若开挂，金钱自来(取个名很难啊)_第470章绿男集中地（1 / 2）_你若开挂，金钱自来最新章节免费阅读无弹窗

既然“模型崩溃”的问题症结已经找到。

下一步的工作就要开始。

“我们可以先启动备份语言模型，采用新的思路来培育语言模型。”苏茨克维说：

“这一次，我们必须要用人类创造的真实数据来喂养模型。”

“对数据质量进行检测、过滤，去除重复、错误、偏见的内容。”

“并注意增强数据的多样性，提高和丰富生成数据的内容。”

“此外，还需要增强鲁棒性技术，提高语言模型抗干扰能力，自动识别生成数据。”

“我认为，未来几年随着人工智能不断发展，寻找真实数据将是语言模型面临的主要挑战之一。”

“鲁棒性”,是指控制系统在一定参数摄动下,维持某些性能的特性。

比如：计算机软件在输入错误、磁盘故障、网络过载或者有意攻击情况下,不死机、不崩溃,就是该软件的鲁棒性。

“在这方面我们有优势，我们的合作伙伴鹅厂，其App本身就是一个规模庞大的人类自然语言数据库。”李飞说。

“但是，这还不够，我们还需要更多的人类经典书籍、图像数据和新闻数据等。”辛顿说：

“这些才是人类自然语言的精华。”

“另外，我们建议鹅厂适度限制各种应用程序接口扒数据的权限……”克里切夫斯基说：

“他们不仅下载数据，还会产生大量生成式数据，影响到我们的语言模型。”

“这些，我都会和鹅厂对接好，辛苦几位抓紧训练，把这段时间损失的进度补上来。”常乐说。

…………

当天晚上，常乐将“模型崩溃”的情况通报给了小马哥、任总等。

他们都很惊讶。

惊讶的是，模型即便产生问题，也与人类如此相似。

第二天上午。

小马哥就出现在半山别墅。

“我可不可以这样理解，随着语言模型的发展和大面积推广，今后人类创造生成的数据，会更加稀缺。”小马哥问。

“可以这样理解，人类天然的惰性，会助推语言模型生成数据的泛滥。”常乐点头：

“至少在目前这个阶段，模型生成的数据还是与人类数据有差距。”

“缺乏真实性和特征的多样性，存在重复、偏见、谬误等。”

常乐倒了一杯茶给小马哥：

“当这些数据用于语言模型训练，就会使模型忽略、遗忘原始数据的特征和信息，这就是模型崩溃的本质。”

“那么这就是一个很大的商机。”小马哥开始兴奋。

“对，确实是一个很大的商机。目前国内外其他语言模型，还未推进到这一步，暂未意识到人类生成数据的珍贵性……”常乐笑道：

“此时，可以先投资或者收购一些新媒体企业，价格不会太高。”

“而且，我还建议，社交App适当切断或者限制一些应用程序接口扒数据的权限，他们的大批量泛滥，会加快语言模型生成数据的泛滥。”

“我懂了，我会马上安排好。”小马哥点头。

江夏端着水果走过来：“马总，吃点水果。”

“谢谢。”

“中午吃过午饭再走，也不急于一时。”常乐说。

“行，我就不客气了，呵呵。”小马哥笑道。

“理应如此，其实投资、收购一些新闻媒体、在线社区在现阶段只能算是一个不错的补充。”常乐说。

“我知道，即便我们公司的社交App本身就是一个巨大的数据库，但是在将来不可避免被语言模型生成的数据所污染。”小马哥说。

“对，所以搭建和扩大网络图书馆就很有必要，比如你们公司的那个读书App就很不错，涵盖小说、经济、传记、科学、社会、历史等等，这才是一个天然的宝库。”常乐说。

“你提醒了我，我们会进一步拓展这个App的规模和范围。”小马哥说：

“另外，我们旗下的小说网站也将加大扶持力度，向传统文学倾斜、靠拢。”