统计学习 | 书摘 | 赤裸裸的统计

书名《赤裸裸的统计学》,相当有意思的一本书。如果世界上每个人都能学一点统计学,那现在的喷子至少得少一半。

第一章 统计学的意义

  1. 描述统计学有自己的优势和劣势,直观但无法获取足够的细节
  2. 基尼系数,评价收入是否公平的工具,可以从不同纬度来评价。
  3. 对于描述统计学的过度依赖会导致误导性的结论或不良行为
  4. 抽样是一种非常重要的统计学方法
  5. 考生在错误题目上保持一致(理论上应分布);难题准确率更高;错改对痕迹大于对改错,都应该受到关注。
  6. 回归分析能解决多变量问题(吸烟诱发癌症中的多因素分析)
  7. 对统计学家来说,量化xxxx的概率 这件事情本身,就是证据,有个说法,叫做“具有统计学意义的”

第二章 描述统计学

  1. 对大量数据进行归纳,是统计学的基本任务,这些描述性数据为我们提供一种可操作的、有意义的概括,但它也有被滥用的危险。
  2. 平均数能反映集中趋势,但是对远离中心区域的异常值有足够的敏感性,如果一组数中没有特别离谱的异常值,那么中位数和平均数会差不多
  3. 中位数的亲戚,四分位数,百分位数等等等,起到的作用和中位数类似
  4. 标准差用来衡量数据相对于平均值的分散程度,常见说法“一个标准差”,“两个标准差”
  5. 基于正态分布,我们知道,有68.2%的数值位于一个标准差范围之内,有95.4%在两个之内,有99.7%位于三个之内
  6. 评价美国“中产阶级”的收入应该看中位数(考虑通货膨胀之后的),也有应该关注25%和75%的数据

第三章 统计数字会撒谎

  1. 精确与准确是不同的,只有在准确的基础上, 精确才会有意义。
  2. 中位数和平均数各自有自己的弱点,这些弱点会被利用起来形成误导
  3. 说百分比的时候,最好对基数也有一些认知,不然也容易被误导。
  4. 没有数据就没法进行管理,但有了数据又会让行为都被数据驱动,造成不好的影响
  5. 把各项数据融合成一个数据时要特别考虑权重的因素,但是在进行权重判断时,判断和专断就是在一线之前

第四章 相关性

  1. 相关性是用标准差计算的,因此可以无视单位,且值在-1和 1之间
  2. 相关性和因果关系不是一回事儿
  3. 电影推荐机制:筛选与自己相关性高的用户。即找几个趣味跟你相同的人,让他们向你推荐一部(这样的话,像集体智慧编程中的内容)

第五章 概率与期望值

  1. 对分辨不出啤酒口味的人,有一半的人会放弃自己的拥泵选择另外一边的啤酒,这就是营销计谋
  2. 二项分布,可以算出某个数字特定概率,也可以算出某个值以下的概率。(低于40人喜欢某啤酒的几率多大)
  3. 概率能打破一些常识性的东西,保险是一种有趣的概率游戏呐
  4. DNA检测只需要检测13个片段
  5. 大数定律,随着实验次数增加,结果接近期望值
  6. 期望值不一定意味着一切,因为它需要大数定律作为保证。如果向巴菲特那么有钱,那就可以按期望来投资了。
  7. 为什么不能对全国人民展开健康侦查?这可以用假阴性和假阳性来回答。

第六章 蒙提霍尔悖论

  1. 有意思,非常有意思,可以多看两遍
0%