统计学习 | 基础概念回顾

这又是一个新的学习总结系列啦。

概率的意义
  • 样本和总体的概念。
  • 概率是统计学的核心,统计学家获取关于值分布的已知信息并将其表述成概率。
  • 利用前人的公式和定理、经验法则、思想体系和假说,了解到研究者最常用的复杂值的分布情况。
  • 在表述为概率的过程中,样本必须满足一定的前提,比图样本一定是随机的。
平均数和标准差
  • 描述性统计和推断性统计。前者有全部数据,后者只有数据的一部分但仍想描述整个组。
  • 利用平均数和标准差两个样本值加上一个总体分布假设,就可以描述总体,这就是中心极限定理
  • 平均数是对趋中趋势的最佳度量,它有一个奇妙的性质,它和其他各数的距离差 的和最小。
  • 标准差用来描述值的变异性和分布(多数接近平均数还是远离平均数),标准差描述的是每个分数和平均数的平均距离。
  • 中心极限定理,表述为:从总体中随机抽取多个样本,那么每个样本的平均数趋于正态分布。
    • 这些平均数的平均数等于总体的平均数。
    • 这些平均数的标准差等于样本标准差除以样本量的平方根,($\frac{\sigma}{n}$)
    • 应用一:由样本值去估计总体的平均值和标准差
    • 应用二:受很多随机作用和无关影响的数据最终呈正态分布,无论总体分布如何,从总体中随机抽取的平均数呈正态分布。
概率计算
  • 加法定律对应互斥事件,相乘定律对应独立事件。
  • 计算概率有两种视角,分析视角是经典视角,分析所有可能结果得出答案。相对频率视角则是通过收集数据、观察实际事实来计算的。
  • 假设检验:对可检验世界做一个估计。验证假设合理方式是是通过观察假设变比那个是否存在相关性。
  • 统计假设检验是特定的假设检验,其不同于研究假设检验(如关注总体中变量X和变量Y存在相关性),它往往对于研究假设相反的假设(虚无假设)为真的可能性做概率解释(如关注总体中变量X和变量Y不存在相关性)
  • 选择虚无假设的原因
    • 证明某事为真非常困难,证明一个特定的估计不正确比证实它正确要容易的多。
    • 证明某个总体故居不正确都比较容易,证明虚无假设错误也推动了进步。
增加样本以减少误差
  • 对于受几率控制的结果随着实验次数增加,预测概率和实际发生概率之间的差距缩小,这个差距被称为标准误差
  • 差距大小与$\frac{1}{\sqrt{样本大小}}$成正比,这可以被看到大数定律的数学表述。
  • 生效原因
    • 一件事在单一实验中有特定概率,那么在无限实验中发生几率将和概率相等
    • 样本无限大时,样本统计学特征等于总体参数
效度和可信度
  • 效度指的是测试数据能在多大程度上体现希望测量的特征以及对测量意图的有用程度。
  • 信度是对同一个人多次重复测量得到的相同测试分数的一致性程度,它是测试分数随机波动的程度,通常用测试项目中相关性来计算。
  • 测量标准误差指的是每个人的观测分数和真分数之间的平均距离,它利用测试的信度信息和群组观测分数的变异来估计,即 标准误差 = 标准差*$\sqrt{1-信度}$
  • 加减一个测量误差一般对应68%置信区间,加减两个测量误差对应95%置信区间(有百分之九十五的可能性此区间包含观测分数)。
  • 测量标准误差是一个标准差,它是误差分数距真分数的标准差。
  • 使用测量误差构建置信区间需要误差是随机的且随机误差是正态分布。
测量尺度
  • 统计学家把有意义的数字称为分数
  • 一共有四种测量尺度。名义测量、次序测量、等距测量、等比测量。
    • 名义测量。数字代表标签。如0代表男性,1代表女性。
    • 次序测量。第1名,第2名等。
    • 等距测量。涵盖前两者,并新增了准确性。如70度和69度之间差的1度是有意义的。
    • 等比测量。最高尺度,涵盖以上全部,且能产生百分比。
统计检验效力
  • 用来解决没在样本中发现事实,但总体中实际存在相关性的问题
  • 显著性检测 判断样本观测到的某个值有无可能是随机发生的。在过程中 产生一个p值,p值低,表明具有统计显著性,即相关性不仅存在于样本中,也存在于总体中。通常会定义一个预先的显著性水平,若小于等于预先设定水平,则表明达到效果。
  • 借助相关性、t检验、F检验、卡方检验、回归方程都可以帮忙确定显著性。
  • 统计检验效力指:假设变量间存在相关性,统计分析达到显著性的概率,这是一个条件概率。检验力公式包括:样本量、预设的显著性水平值、效应值(总体中相关性大小)
  • t检验中,效应值常用两组平均数差除以样本标准差所得值来表达,0.2内为小,0.2-0.5为中,0.8为大,对同一检验力和显著水平,大效应值代表存在巨大差异,因而只需要很小的样本量。
  • 效应值和样本量的关系。隐藏在总体中的大效应值(干草里的大象)更容易被发现(只需要较少样本)(只需要较少观察)(只需要撩开几把干草)
识别效应值
  • 显著性只意味着在样本中的发现在总体中可能为真,但这不能让我们知道相关性,效应值可以解决相关性问题。
  • 效应值表示两个变量间相关性强度,它对比如相关系数(体现两组分数之间的关系强度和方向)感兴趣
  • 效应值三种类型
    • 相关系数,用小写r表示,平方后称为方差比例
    • d,归纳了t检验中的两组平均数的差异,计算见#统计检验效力#
    • $\eta^2$,最常见的效应值结果,解释为因变量(结果变量)对独立变量(你所在的组)贡献的方差比例
  • 效应值多大,即相关性多大引起你的兴趣,这个可以通过查表得到。
  • 对实际情况来说,效应值的用处比统计显著性要大一些,找到相关是更有实践意义的。
0%