其实这次的周记主要是针对以前知识点的部分回顾与复习,(过年过节也比较懒,算是给自己的不作为找的合理借口吧!)
1. 描述性统计分析
a. Python 版
[1] 数据导入
Data = pd.DataFrame(pd.read_csv(“name.csv”))
[2] 分析函数
Data.discribe() # 描述性统计分析
从不同方面、维度描述数据:
集中趋势: mean, 众数,中数
离散程度: std, var, 极差(max - min)
[3] 数据的直观表述
箱线图 :直观的离散分析工具
图形绘制函数: plt.boxplot(Data[“attrs”]) plt.show()
图形优化/美化: plt.xlable() plt.ylable() # 坐标轴标签
plt.title() # 图标标题
plt.legend() # 图例
[4] 数据分布(具体/详细)情况
(限制:样本数不应少于50个)
箱线图可以很好的反应数据的离散情况,但不能提供数据的详细(内部)分布状况,需要使用直方图针对单个数据的具体分布情况进行展示。
流程: 分组(组间距,组宽) 直方图(频数分布图)
函数: plt.hist(data[“attrs”]) plt.show()
b. R 语言
[1] 数据导入
Data = data.frame(read_csv(“name.csv”))
[2] 分析函数
summary() # 描述性统计分析
从不同方面、维度描述数据:
集中趋势: mean, 众数,中数, 四分位数
离散程度: std, var, 极差(max - min)
[3] 数据的直观表述
箱线图 :直观的离散分析工具
函数: boxplot(data, main=(“title”), col=c(“color”), ylab=(轴标记))
[4] 数据分布(具体/详细)情况
(限制:样本数不应少于50个)
箱线图可以很好的反应数据的离散情况,但不能提供数据的详细(内部)分布状况,需要使用直方图针对单个数据的具体分布情况进行展示。
函数: hist(data$attrs)
2. Z检验(U检验)
作用/目的: 推断样本差异发生的概率,比较两个平均数差异的显著性。(分析/检验样本与总体/不同样本间的一致性)
原理: 标准正太分布
步骤:
(1) 建立虚无假设:即假定两个平均数之间无显著差异(不同样本/样本与已知总体间)。
(2) 计算统计量 Z(分两种情况)
[1] 样本与总体
已知: 样本:所有数据,可计算多个统计量(样本量n, 均值X,方差...)
总体:均值/期望 u, 标准差 S
[2] 不同样本间的差异(代表不同分布的总体)
已知;样本1:X1, n1
样本2:X2, n2
(3) 通过比较计算Z值与理想Z值,推断概率P,做出最终的显著性判断;
3.差异性(多样本)显著性检验--方差分析《Excel中有自动计算模块》
原理: 不同样本数据间的差异(SSt)由两部分原因组成:
a. 组内差异(SSw) :随机误差;不可控
b. 组间差异(SSb) : 可控;(由处理方式的不同造成的)
使用条件:[1] 可比性(随机,相互独立);[2] 正态性(非偏态);[3] 方差齐性(需要无显著差异,“若有明显差异,也不必使用”);
使用Hartley 检验 ==> 计算 F 值作为判断依据
(1) 适用性判断
a. 各样本方差计算:
统计分析得到:
b. 确定P值并作推断,是否符合方差齐性(这是三个条件中最为重要的一点)
(2) 计算处理
a. 预处理:求和, 求平方和
b. 计算平方和(组内和组间)
c.自由度计算
d.均方计算
e.F值计算
f. 由P值做出推断(多样本之间是否存在显著差异)
个人感触: 对于数据分析的学习断断续续也快有小半年了,其中开始过的关注与数据的数据分析的工具以及技巧性东西,在现在的自己看来或许很多时候对于数据的了解和预处理才是数据处理的基石和关键--数据处理前需要对数据来源及数据的产生有一定的了解(业务知识),而且在数据分析前对于数据的处理--数据分组,脏数据处理,数据格式转化等(处理的前提依据是你对于数据有大致的了解,基于业务基础你有一个比较明确的数据分析“目标”)
因此数据分析的前提与基础是对于数据分析的数据与数据的分析目标在数据分析开始都有一个清晰的认知。而且感触较深的是在工作过程中,业务需求是数据分析的主要初衷,只有对于业务有深入的了解和认知才能准确的进行数据获取--数据分析--结论应用实践--修正总结。
对于数据处理分析的工具,方法进行分配学习;方法对于需要从了解---掌握(应用)--熟知,前期可进行大量的阅读和搜索了解数据分析方法和模式,但是掌握还需要进行实际应用。工具--作为数据处理的辅助工具,目的是数据处理效率的提升。切不可本末倒置,数据处理的思维模式,数据处理方法和经验才是数据处理中的重点,当然不能说工具不重要,工具的熟练使用可以提高效率,节约最为宝贵的财富--时间。