我的1999(东人)_第九百二十三章敲打（2 / 2）_我的1999最新章节免费阅读无弹窗

客气了一句后，徐良也不再浪费时间。

“今天演讲的题目是：大数据、云计算和人工智能对未来的影响！

首先，让我们明确一点，什么是数据？

在很多人的印象中，数字就是数据，或者必须是由数字构成的。

其实不然，数据要比数字大得多。

互联网上任何内容，比如文字、图片和视频都是数据。

医院里包括医学影像在内的所有档案也是数据；

公司和工厂里的各种设计图纸也是数据；

出土文物上的文字、图示，甚至它们的尺寸、材料，也都是数据。

甚至我们人类的活动本身，也可以看做是一种特殊的数据。

全世界各个领域的数据不断向外扩展，渐渐形成了另一个特点，那就是很多数据开始出现交叉。

各个维度的数据从点和线渐渐练成了网。

或者说，数据之间的关联性极大的增强，在这样的背景下，就出现了大数据。”

顿了一下，徐良调整了一下PPT。

“那么数据和大数据怎么运用呢？

大致可以分为以下流程。

获取数据→分析数据→建立模型→预测未知。

我们举一个简单的例子。

现在我们想要了解一家电影院的观众年龄分布，以便做市场推广。

假定我们把观众群分为15岁以下，16~25岁，26~40岁和41岁及以上四个人群。

要了解每个人群的比例，一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。

比如我们通过调查了解到大约有343人在15岁以下，459人在16~25岁，386人在26~40岁，490人在41岁及以上。

根据这个数据，我们大致可以得出以下结论：

15岁及以下的观众占20%左右，16~25岁的观众超过四分之一，但不到三成；

26~40岁的观众略少于四分之一，41岁及以上的观众最多，大约占到三成。

但是，如果我们只在周末的晚上抽样调查10个人，我们就会发现。

有三个15岁及以下的观众，五个16~25岁的观众，2个26~40岁的观众。

我们显然不能说25岁以下的观众占了八成，而41岁及以上的中年人从来不来电影院，这样的结论。

但我想各位也都承认一点，在统计样本不充分的情况下，得到的结果跟实际结果存在很大的偏差。

所以，越想要得到准确的统计结果，需要的统计数据量就越大。

在上面的例子中，统计的样本总数是1678人。

但是如果我们一定要说‘41岁及以上的观众就是29.2%’，或者‘15岁及以下观众一定超过20%’。