机器学习数据
取决于 80% 机器学习项目的意义在于收集数据:
- 什么是数据 必需的?
- 什么是数据 可用的?
- 如何 选择 数据?
- 如何 收集 数据?
- 如何 干净的 数据?
- 如何 准备 数据?
- 如何 使用 数据?
什么是数据?
数据可以是很多东西。
通过机器学习,数据就是事实的集合:
类型 | 例子 |
---|---|
数字 | 价格。日期。 |
测量 | 尺寸。身高。体重。 |
字 | 姓名和地点。 |
观察结果 | 数车。 |
描述 | 很冷。 |
情报需要数据
人类智能需要数据:
房地产经纪人需要已售房屋的数据来估算价格。
人工智能也需要数据:
机器学习程序需要数据来估算价格。
数据可以帮助我们观察和理解。
数据可以帮助我们发现新的机遇。
数据可以帮助我们解决误解。
卫生保健
医疗保健和生命科学收集公共卫生数据和患者数据,以了解如何改善患者护理并挽救生命。
商业
许多行业中最成功的公司都是数据驱动的。他们使用复杂的数据分析来了解公司如何才能表现更好。
金融
银行和保险公司收集和评估有关客户、贷款和存款的数据以支持战略决策。
存储数据
最常收集的数据是数字和测量值。
通常,数据存储在表示值之间关系的数组中。
下表包含房价与面积:
价格 | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
尺寸 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
定量与定性
定量数据是数值的:
- 55辆车
- 15 米
- 35 名儿童
定性数据具有描述性:
- 很冷
- 它很长
- 好玩
普查或抽样
A 人口普查 是我们为一个群体的每个成员收集数据的时候。
A 样本 是我们为某个群体的某些成员收集数据的时候。
如果我们想知道有多少美国人吸烟,我们可以询问美国的每个人(人口普查),或者我们可以询问 10,000 人(样本)。
人口普查是 准确的,但很难做到。一个例子是 不准确,但做起来更容易。
采样条件
A 人口 是我们想要从中收集信息的一组个人(对象)。
A 人口普查 是关于群体中每个个体的信息。
A 样本 是关于部分人口的信息(为了代表全部人口)。
随机样本
为了使样本能够代表总体,必须随机收集样本。
A 随机抽样,是总体中每个成员都有同等机会出现在样本中的样本。
抽样偏差
A 抽样偏差 当样本的采集方式使得某些个体不太可能(或更有可能)被纳入样本时,就会发生(错误)。
大数据
大数据是指如果没有先进机器的帮助,人类就无法处理的数据。
大数据在大小方面没有任何定义,但随着我们不断收集越来越多的数据并以越来越低的成本存储数据,数据集变得越来越大。
数据挖掘
大数据带来了复杂的数据结构。
大数据处理的很大一部分是提炼数据。