数据科学之入门:数据科学家应该了解的10个统计学概念
总体是一个群体中的所有元素。例如,美国的大学生是包括美国所有大学生的总体。在欧洲25岁的人是一个总体,该总体包括所有符合该描述的人。 由于我们不能收集一个总体的所有数据,因此对总体进行分析有时是不可行或不可能的,因此,可以借助样本进行分析。样本是总体的一个子集。例如,1000名美国大学生是“美国大学生”总体的一个子集。 2. 正态分布 概率分布是表示事件或实验结果概率的函数。考虑数据帧中的一个特性(即列)。这个特征是一个变量,它的概率分布函数显示了可以取值的区间。 概率分布函数在预测分析或机器学习中非常有用。我们可以根据某个总体样本的概率分布函数来预测该总体。 正态(高斯)分布是一个概率分布函数,看起来像一个钟型。下图显示了典型正态分布曲线的形状。 曲线的峰值表示变量最可能采用的值。离峰值越远,取该值的概率就越小。 3.量度集中趋势 中心趋势是概率分布的中心值(或典型值)。最常用的中心趋势度量是平均数、中位数和众数。 · 平均数是一列数值的平均值。 · 中位数是按升序或降序排序时中间的值。 · 众数是最常出现的值。 4.方差与标准差 方差是值之间变化的度量。它的计算方法是求每个值和平均值的平方差,然后将这些平方差相加,最后将总和除以样本数。 标准差是衡量数值分布的一种方法,它是方差的平方根。 5. 协方差和相关性 协方差是一种定量方法,它表示两个变量的变化在多大程度上相互匹配。更具体地说,协方差以其平均值(或预期值)来比较两个变量的偏差。 下图显示了随机变量X和Y的一些值。橙色点表示这些变量的平均值。这些值的变化与变量的平均值类似。因此,X和Y之间存在正值协方差。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |