统计学习 | 相关性

一个特质与另一个特质的关系,因和果之间的联系,都可以通过数学的技巧揭示

发现相关性
  • 相关性无处不在,描述关系大小的数字叫做相关系数
  • 相关系数计算公式$\frac{\sum(z_xz_y)}{N-1}$,$Z_x$是指分数离平均数的距离。
  • 相关系数值在$-1 \sim +1$之间,它提供了两个变量之间线性关系强度的标准度量。强相关也可以是负的。
  • 只有在样本数足够大的时候,样本的相关性才能表征总体的相关性。有下表。
  • 相关性不能作为因果关系的证据,虽然二者有关联。
  • 在相关性分析中,线性回归是一个重要话题
回归方程
  • 用一组数据预测另一组数据需要两组样本数据,一组为效标变量,即想要预测的变量。另一组为预测变量,即用作预测指标的变量。还需要两变量之前相关系数一个。
  • 计算最终方程为效标 = 常量 +(预测变量 X 权重),计算过程如下:
    • 权重 = 相关系数 X 效标标准差 / 预测标准差
    • 常量 = 效标平均数 - (权重 X 预测平均数)
  • 当两个变量相关时,提供的信息有重叠之处,即共享变异。因此可用一个变量的变异去解释另一个变量的变异。
  • 当两变量相关不完美;关系是非线性化的; 原始数据不具备对未来数据的代表性,那么回归分析就用处不大。
多变量预测单变量
  • 计算最终方程为效标 = 常量 +(预测变量1 X 权重1)+(预测变量2 X 权重2) + …
  • 直接对比原始权重可能会有误解,一个变量权重过小,可能是因为它的度量尺度大。通过标准权重可以解决问题。
  • 多元线性回归预测效果比简单线性回归好,因为引入了额外的信息,最后产生的权重是移除了共享信息之后的权重。
单因素卡方检验
  • 1982年伦敦出生男孩女孩数量相同吗?一天中不同时段罪案数量相同吗?单因素卡方检验用来解决多类别中每一类所包含的“事物”数量较之正常状态下随机发生的数量是否有所不同这样的问题,其用来识别非预期结果
  • 卡方值计算公式:$\sum{\frac{(观望频次-期望频次)^2}{期望频次}}$
  • 显著性为0.05时需要的卡方值。
  • 卡方适用于类别数据,数字越大,用偶然性单独解释事情的可能性越低。卡方检验的使用框架是:研究者怀有某个预期,以此方法检验观测数据是否与预期相符。
  • 卡方是一种直接的模型检验,一种拟合优度检验。
两因素卡方检验
  • 与前文不同,两因素卡方检验主要用来识别非预期相关,比如程序员是否找不到妹子?女生更喜欢加入民主党还是共和党?
  • 计算方法基本与上文相同,也是计算平方卡方值。
  • 两因素卡方通过观察差异性回答相关性,这可能违反直觉,但这背后的逻辑是如果没差异性,那么分布应随机形成,现在有较大偏差,说明有相关性。
  • 两因素卡方分析有时候被称作联列表分析
t检验
- t检验可以用来比较两组,t越大,差异为随机出现可能性越低。
  • 随机出现几率小于5%的值
  • 样本差异性究竟能不能反映总体差异性,t检验回答了这个问题。其公式里的平均分数提供了样本分数的分部信息,方差表示了可能偏离总体平均数的程度,样本量提供了估计的准确性。
标准误差
  • 标准误差可以估计由样本得出的参数和总体参数的差距
  • 标准误差分类
    • 描述性统计中的平均数标准误差,如某个变量的总体平均分
    • 调查取样中的比例标准误差,如总体中拥有某个特征的成员所占的比例
    • 回归中的估计标准误差,如未来的表现。
  • 平均数标准误差 = $\frac{标准差}{\sqrt{样本大小}}$,其本质是众多样本的平均数与其总体平均数距离的平均数。样本数量越准确。可以把样本量想象成独立观测,观测越多越准确。
  • 比例标准误差 =$\sqrt{\frac{(比例)(1-比例)}{样本大小}}$。注意到样本中比例偏离0.5的程度越大,比例的标准误差越低。
  • $ 估计标准误差 = 标准差\sqrt{1-相关系数^2}$标准差指的是预测的变量(效标变量)的标准差,相关系数是预测变量和饿效标变量的相关。
  • 因为取样误差是正态分布的,因此使用标准误差可以在一定把握上去判断真相(总体的值)落在哪个区间,示例如下图
  • 标准误差之所以生效,其一是因为取样误差是正态分布的,其二是因为取样误差是无偏的,这意味着样本值大于或小于总体可能性相同。
取样
  • 一个良好的样本能代表一个总体,这意味着总体中每个中重要特征分布必须和样本中特征分布成比例。
  • 构建样本时,必须了解各种隐性或显性的分组层级。定义采样框架时需要明确通用全集、可操作全集、抽样单元、抽样框架
  • 可泛化推广样本和有偏样本,关键在于是否随机
  • 现实世界抽样方式
    • 方便抽样,比如去购物中心随机问顾客对某件事态度
    • 系统抽样,从抽样框架中等距抽取
    • 分层抽样,首先要去定义子群组的特质
    • 整群抽样,单元群组是随机的,但内部每个单元都是样本,如随机选一个班级,问里面所有学生情况
    • 判断抽样,样本的选择是基于你的专业判断
    • 威士忌与水的混合问题,很有意思
再谈平均数
  • 平均数、中位数都是为了描述趋中趋势,实际决定选哪个数要考虑实际情况。
  • 如果数据中存在两个或多个趋势,报告每个趋势的众数
  • 如果分布是偏态的,选择中位数
  • 如果分布是非常对称的,且只有一个众数,那么选择中位数
0%