主页 > imtoken冷钱包 > 干货!统计7种数据分析方法,超实用

干货!统计7种数据分析方法,超实用

imtoken冷钱包 2024-01-26 05:07:17

干货!统计学7种数据分析方法,超级实用

研究人员在图书馆档案中搜索计算机数据库

嗨~朋友们!

今天的内容很干,大家一定要看哦~~

做数据分析统计学中的全距,肯定会涉及到统计学的知识。之前也推过一些统计相关的基础知识。今天,我将分享我们可能会使用的统计学中的 7 种数据分析方法。

一、描述性统计

描述性统计是通过图表或数学方法对数据进行组织和分析,对数据的分布状态、数值特征和随机变量之间的关系进行估计和描述的一种方法。

描述性统计分为三个部分:集中趋势分析、分离趋势分析和相关分析。

集中趋势分析

集中趋势分析主要依靠均值、中位数、众数等统计指标来表示数据的集中趋势。

距离趋势分析

距离趋势分析主要依靠全距离、四分位差、平均差、方差(covariance:用来衡量两个随机变量之间关系的统计量)、标准差等统计指标来研究数据的偏差趋势例如,如果我们想知道两个教学班中哪个班的中文分数分布更分散,可以用两个班的四分位数或百分点差来比较。

相关性分析

相关性分析探索数据之间是否存在统计相关性。

二、假设检验

假设检验是一种统计推断方法,用于判断样本与总体的差异是由抽样误差还是本质差异引起的。

假设检验可分为三类:正态分布检验、正态总体均值分布检验和非参数检验。

正态分布检验

正态分布检验包括三种类型:JB检验、KS检验、Lilliefors检验,用于检验样本是否来自正态分布总体。

正态总体平均分布检验

正态总体均值分布检验,研究系统误差对检验结果的影响。在允许范围内。另一方面,如果不同样本的均值之差超出允许范围,则意味着除了随机误差外,均值之间还存在系统误差,导致均值之间存在显着差异。

有两种情况:

T检验:主要用于样本量小、总体标准差未知的正态分布数据。它利用T分布理论来推断差异的概率,从而判断两个均值的差异是否显着。

U 检验:通常用于检验大样本的均值差异统计学中的全距,基于样本来自正常总体的假设。它利用标准正态分布的理论来推断差异的概率,从而比较两个均值之间的差异是否显着。国外英语统计多采用Z检验。

非参数检验

非参数检验不考虑总体分布是否已知,仅应用来自样本观察的一些非常直观的信息。适用情况包括:待分析的数据不满足参数检验要求的假设,不能应用参数检验;数据只包含几个等级;问的问题不包含参数;当需要快速获得结果时。其主要方法包括:卡方检验、秩和检验、二项式检验、游程检验、K-量检验、符号检验等。

三、相关性分析

相关性分析是研究现象间关系的主要方法之一。它可以确定现象之间关系的大小和方向。关联关系的类型可以分为不同的维度:

按相关程度划分:完全相关、不相关、不完全相关。

根据依赖关系的表达方式划分:线性相关,非线性相关。

按相关方向划分:正相关、负相关。

按研究量划分:单相关、多相关。

确定相关性的方法有:散点图、相关系数等。

四、回归分析

回归分析是一种统计分析方法,用于确定两个或多个变量之间的定量关系。根据变量的个数和变量之间的关系类型,可以分为各种回归:

一元线性回归分析

分析因变量和自变量之间的线性关系常见的统计指标包括:平均、增加或减少、平均增加或减少。

多元线性回归分析

分析多个自变量与一个因变量之间的线性关系。在实际的统计分析中,一般使用软件来估计多元回归模型。

非线性回归分析

自变量与因变量之间因果关系的函数表达式是非线性的。非线性回归模型有很多,包括对数曲线方程和反函数曲线。方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程、S形曲线方程都是非线性回归方程。

还有许多其他的回归分析模型。我之前写过一篇关于回归分析的文章。想了解的可以阅读,这里不再赘述!

10种常用回归分析模型算法,果断收藏

五、方差分析

方差分析,又称“方差分析”或“F检验”,用于检验两个或多个样本的均值差异的显着性。使用条件包括:每个样本必须是一个独立的随机样本;每个样本来自一个正态分布的总体;每个总体方差都相等。

根据分析的实验因素个数,可分为:

单因素方差分析

用于研究不同水平的控制变量是否对观察变量产生显着影响。在这里,因为只研究了一个因素。

双向方差分析

用于分析两个因素的不同水平是否对结果有显着影响,两个因素之间是否存在交互作用。

六、聚类分析

聚类分析是一种探索性分析。在分类的过程中,人们不需要事先给出分类标准。类分析可以从样本数据开始,将数据分类为不同的类或簇。同一簇中的对象具有很大的相似性,而不同簇中的对象具有很大的不同。

聚类分析的主要计算方法有:

拆分方法

首先创建k个分区,其中k是要创建的分区数。然后使用圆形定位技术通过将对象从一个分区移动到另一个分区来帮助提高分区质量。典型的划分方法包括:k-means、k-medoids、CLARA、CLARANS、FCM等。

分层方法

创建层次结构来分解给定的数据集,可以分为自顶向下(分解)和自底向上(合并)操作。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。

基于密度的方法

对象的聚类是根据密度完成的。方法包括:DBSCAN、OPTICS等。

基于网格的方法

首先将对象空间划分为有限单元形成网格结构,然后利用网格结构完成聚类。方法包括:STING、CLIQUE等。

基于模型的方法

假设每个集群都有一个模型,并找到适合相应模型的数据。方法包括:COBWEB、CLASSIT等。

七、时间序列分析

时间序列是将同一现象在不同时间的观测数据按时间顺序排列得到的序列,也称为动态序列。时间序列有两个基本要素:现象所属的时间和反映该现象在不同时间的指标值。

时间序列根据排名指标有不同的表达方式,可分为:

绝对数时间序列

指一系列相似的综合指标数据,按时间顺序排列形成的序列,反映了该现象在每个时期所达到的绝对水平。又分为:时间序列和周期序列。

相对数字的时间序列

指相对指标值按时间顺序排列形成的时间序列,主要反映客观现象数量关系的发展过程。

平均时间序列

指按时间顺序排列的一系列相似的平均指标值,主要反映客观现象一般水平的发展变化过程。又可进一步分为:静态平均时间序列和动态平均时间序列。

时间序列的分析模型可以分为:按影响因素:

长期趋势的确定与分析方法:时间区间扩展法、移动平均法、最小二乘法。

季节变化的判断和分析方法:同期平均法、移动平均趋势消除法。

循环变异的测定和分析方法:直接法和残差法。

当然,统计学远不止这七种数据分析方法,还有很多其他方法值得深挖,比如路径分析、因子分析、主成分分析等。以后,一定要学习更多的统计学基础知识。