SQL数据分析-第一章-理解和描述数据

2021/11/11 2:11:40

编程Tag： 数据异常变量散点图 SQL 位数数据分析第一章描述统计

本文主要是介绍SQL数据分析-第一章-理解和描述数据，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、数据世界

(一）数据类型

数据分为两大类：定量数据和定性数据。

定性数据：用非数值来描述的数据，如文本。

定量数据：分为离散数据和连续数据，是一种可以用数字来描述的测量结果。

（二）数据分析和统计

1.统计类型

统计过程可以分为描述统计和推论统计。

描述统计用于描述数据。数据集中单一变量上的描述统计称作单变量分析；同时考察两个或多个变量的描述统计则称作多变量分析。

推论统计根据样本属性尝试推断出总体属性。

Tips 1:拿到一个新的数据集，首先考虑以下步骤：

a）确定观察的数据的单位。

b）确定每一列是定量数据还是定性数据。

c）将定性数据转化为定量数据。

（三）描述统计的方法

一）单变量分析

1.数据频率分布

数据的分布是数据集中数值数量的一个计数。

根据数据集中实际出现的次数描述计数结果是绝对频率分布。

根据占数据点总数的比例来描述计数结果是相对频率分布。

（1）直方图是处理分布的一种很重要的方法。

（2）量化数据分布的一种方法是分位数。N-分位数表示n-1个点的集合，用于将数据分为n组。这些点通常称为切割点。

2.集中趋势

常见的集中趋势测量方法如下：

（1）模式：变量分布中最为常见的数值。如果有多个，则该变量称为多模式的。如果不存在重复的变量，那么该数值集合不存在模式。

（2）均值：通常可较好的描述变量的“典型”值。其主要缺点是：其对异常值很敏感。包含异常值的数据集称为倾斜数据集。

（3）中位数：中位数可以避免对异常值的敏感。

一种较好的原则是：同时计算中位数和均值。如果二者有很大差距，则数据集中存在异常值。

3.离散度

（1）极差：易于计算但很容易受到异常值的影响。并未提供与数据集中间值分布相关信息。

（2）标准差/方差：也会受到异常值影响，但没有极差那么明显。

（3）四分位距IQR：定义为第一个四分位数Q1（下四分位数）与第三个四分位数Q3（上四分位数）之间的差值。它能很好地处理异常值数据。同时，它可以定义异常值：在[Q1-1.5*IQR,Q3+1.5*IQR]区间之外的值即为异常值。

二）双变量分析

1.散点图

当仅有少量数据时（30-500），散点图十分有用。如果数据量过大，可在其中随机抽取200个数据样本。

散点图所呈现的两个变量的关系及应用如下：

1）趋势性：线性、二次型、指数型、逆转型、逻辑型……

同时，检测趋势中的变化行为也同样有用：例如，某种线性趋势在x>40后就消失了。

2）周期性：数据中的重复模式，这在预测过程中十分有用。

3）检测异常值：当检测出异常值后，可以选择移除这些异常值。

2.皮尔森相关系数

表示散点图与线性趋势的拟合程度。

解释皮尔森相关系数时需要注意：

1）其仅衡量二者与线性趋势的拟合程度，还应留意两个变量间的非线性关系。

2）数据点越少，相关系数可能越高，但应有保留的看待结果。理想状态下，应尽可能多的持有优良数据点（排除异常值）。

3）仅仅因为二者有很强的相关性不能推出因果关系。其他可能的情况如因果倒置、两个变量关联性之间还存在第三个变量等。故分析时应避免相关性和因果关系陷阱，深入思考对结果产生影响的其他因素。

3.时序数据

事务如何随时间而变化。

Tips2：处理缺失数据：

（1）删除行：如果较少的数据行存在缺失数据（少于5%），直接删除有缺失数据的行。

（2）均值/中位数/模式填补：如有5%-25%数据缺失可使用此类方法。

（3）回归填充法：尝试构建和使用某种模型填充缺失数据。

（4）删除变量：如果某个变量缺失了大部分数据且未持有有效数据，可直接将其删除。

这篇关于SQL数据分析-第一章-理解和描述数据的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

SQL数据分析-第一章-理解和描述数据

一、数据世界

(一）数据类型

（二）数据分析和统计

（三）描述统计的方法

相关编程文章