数据可视化 | 开篇

讲数据就是讲故事。这一系列来自于对《鲜活的数据》这本书的总结。

如果不了解数据,那么它就这只是冰冷的文字和数据的堆砌,统计与可视化可以帮助我们发现很多深层次的东西。在一堆堆数字中间藏着意义、真相和美学。数据有很强的客观性,但其中往往也有很多人为因素。就失业率例子,失业率攀升百分之五个百分点和数十万人下岗之间还是有着微妙且重要的差别的。

数据可视化有哪些基本原则

数表应该清晰、简洁、优美。重要的点、线、区域都应该有注释,使用的符号和颜色都应该有详细的说明。数据可视化不一定只和冰冷的事实相关,有时候我们寻求的不是分析和洞察,而是从富有情感的观点讲故事。最后,数据本身也许并不一定让人趣味盎然,令人印象深刻的应当是设计数据和演示数据的方法。

在面对一堆数据时,我们该怎么入手

  1. 寻找模式,即寻求变化。以随时间推移而产生变化的模式举例,不同粒度时间内(小时、天、月、年)变化量怎样?波动是否异常?是否有特殊事件引起变化?由一个问题会引申出很多问题,要多角度去思考各种可能的变化。
  2. 寻找关系。在分析数据时,要找到数据的关联性和因果关系。
  3. 有问题的数据。数据检验是很讨人厌的事,但我们也不能避免这件事。

设计可视化图时应该注意什么

  1. 在设计可视化图形时,需要用圆形、柱形等用于编码,因而必须选用合适的方式去解码,一般可以用标记、说明文字、图解来解释编码。如果有足够空间,分类又不多的话,可以直接在形状或对象旁边添加标记。
  2. 标记坐标轴, 让读者知道它描绘的尺度和内容。
  3. 确保几何上的正确性,尤其要特别注意面积这个属性。
  4. 请记得提供数据来源,这样才显得严谨。
  5. 请注意考虑受众来源,幻灯片中的图形应该简单明了,如果是商业报告的话,图形应该简单、直达主题。按这样思考总是没错的。

该怎么处理数据

收集数据

收集数据时处理数据的第一步。很多人都会忽略这一步。收集数据的渠道有:

  1. 从他人处获取。即使是由他人提供数据,我们也不能大意,典型的要注意笔误和上下文环境,如数据的出处,收集的宗旨,调查何时举办?由谁发起?哪些人参与?这都是需要关注的。
  2. 从搜索引擎/直接数据源(该领域的学者/相关论文学术报告/搜索数据来源的网站)/大学资源/综合数据类网站(Freebase/Infochimps/维基百科)/专题性数据(垂直网站)
  3. 自动收集数据。使用Python+爬虫,基本步骤就三个:找出规律,循环,存储数据。
设置数据的格式

格式化对于数据处理而言,是非常非常重要的一步。说它占掉整个数据处理工作中百分之九十的工作量绝不夸张。这也是一项非常繁琐的工作,因而必须拥有足够的耐心且找到合适的工具。

常用的数据格式有:csv(带分隔符的文本),JSON(JavaScript对象表示法)、XML(可扩展标记语言)。

0%