0x01 可视化过程

一个完整的数据可视化过程，主要包括以下4个步骤：

确定数据可视化的主题；

提炼可视化主题的数据；1. 确定数据指标2. 明确数据间的相互关系3. 确定用户关注的重点指标

根据数据关系确定图表；

进行可视化布局及设计；1. 页面布局2. 图表制作

通常，数据之间的相互关系包含如下几类：

趋势型：通常研究的是某一变量随另一变量的变化趋势，常见的有时间序列数据的可视化。

对比型：对比两组或者两组以上的数据，通常用于分类数据的对比。

比例型：数据总体和各个构成部分之间的比例关系。

分布型：展现一组数据的分布情况，如描述性统计中的集中趋势、离散程度、偏态与峰度等。

区间型：显示同一维度上值的不同分区差异，常用来表示进度情况。

关联型：用于直观表示不同数据之间的相互关系，如包含关系、层级关系、分流关系、联结关系等。

地理型：通过数据在地图上的地理位置，来展示数据在不同地理区域上的分布情况，根据空间维度不同，通常分为二维地图和三维地图。

确定图表

0x02 数据可视化的基本流程

1.数据采集

内部数据采集：指的是采集企业内部经营活动的数据，通常数据来源于业务数据库，行为日志数据。需要用「埋点」这种方法来进行APP或Web的数据采集。

外部数据采集：指的数通过一些方法获取企业外部的一些数据，具体目的包括，获取竞品的数据、获取官方机构官网公布的一些行业数据等。通常采用的数据采集方法为「网络爬虫」。

2.数据处理和变换

数据预处理和数据挖掘：一方面，通过前期的数据采集得到的数据，不可避免的含有噪声和误差，数据质量较低；另一方面，数据的特征、模式往往隐藏在海量的数据中，需要进一步的数据挖掘才能提取出来。

常见的数据质量问题包括：

1.数据收集错误，遗漏了数据对象，或者包含了本不应包含的其他数据对象。

2.数据中的离群点，即不同于数据集中其他大部分数据对象特征的数据对象。

3.存在遗漏值，数据对象的一个或多个属性值缺失，导致数据收集不全。

4.数据不一致，收集到的数据明显不合常理，或者多个属性值之间互相矛盾。例如，体重是负数，或者所填的邮政编码和城市之间并没有对应关系。

5.重复值的存在，数据集中包含完全重复或几乎重复的数据。

常用的数据处理方法包括：

降维、数据聚类和切分、抽样等统计学和机器学习中的方法。

3.可视化映射

可视化映射是指将处理后的数据信息映射成可视化元素的过程。

可视化元素由3部分组成：可视化空间+标记+视觉通道

1.可视化空间

数据可视化的显示空间，通常是二维。

2.标记

标记，是数据属性到可视化几何图形元素的映射，用来代表数据属性的归类。

根据空间自由度的差别，标记可以分为点、线、面、体，分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图，分别采用了点、线、面、体这四种不同类型的标记。

3.视觉通道

数据属性的值到标记的视觉呈现参数的映射，叫做视觉通道，通常用于展示数据属性的定量信息。

常用的视觉通道包括：标记的位置、大小（长度、面积、体积...）、形状（三角形、圆、立方体...）、方向、颜色（色调、饱和度、亮度、透明度...）等。

4.人机交互

如果在可视化图形中，将所有的信息不经过组织和筛选，全部机械的摆放出来，不仅会让整个页面显得特别臃肿和混乱，缺乏美感；而且模糊了重点，分散用户的注意力，降低用户单位时间获取信息的能力。

常见的交互方式包括：

1.滚动和缩放：当数据在当前分辨率的设备上无法完整展示时，滚动和缩放是一种非常有效的交互方式，比如地图、折线图的信息细节等。但是，滚动与缩放的具体效果，除了与页面布局有关系外，还与具体的显示设备有关。

2.颜色映射的控制：一些可视化的开源工具，会提供调色板，如D3。用户可以根据自己的喜好，去进行可视化图形颜色的配置。这个在自助分析等平台型工具中，会相对多一点，但是对一些自研的可视化产品中，一般有专业的设计师来负责这项工作，从而使可视化的视觉传达具有美感。

3.数据映射方式的控制：这个是指用户对数据可视化映射元素的选择，一般一个数据集，是具有多组特征的，提供灵活的数据映射方式给用户，可以方便用户按照自己感兴趣的维度去探索数据背后的信息。这个在常用的可视化分析工具中都有提供，如tableau、PowerBI等。

4.数据细节层次控制：比如隐藏数据细节，hover或点击才出现。

5.用户感知

可视化的结果，只有被用户感知之后，才可以转化为知识和灵感。

用户在感知过程，除了被动接受可视化的图形之外，还通过与可视化各模块之间的交互，主动获取信息。

数据可视化第一周（待完善)

数据可视化第一周（待完善)

0x01 可视化过程

0x02 数据可视化的基本流程

1.数据采集

2.数据处理和变换

3.可视化映射

4.人机交互

5.用户感知

数据可视化 第一周（待完善)

0x01 可视化过程

0x02 数据可视化的基本流程

1.数据采集

2.数据处理和变换

3.可视化映射

4.人机交互

5.用户感知

数据可视化第一周（待完善)