数据分析(回顾小结)

其实这次的周记主要是针对以前知识点的部分回顾与复习,(过年过节也比较懒,算是给自己的不作为找的合理借口吧!)

1. 描述性统计分析

a. Python 版

[1] 数据导入

Data = pd.DataFrame(pd.read_csv(“name.csv”))

[2] 分析函数

Data.discribe() # 描述性统计分析

从不同方面、维度描述数据:

集中趋势: mean, 众数,中数

离散程度: std, var, 极差(max - min)

[3] 数据的直观表述

箱线图 :直观的离散分析工具

图形绘制函数: plt.boxplot(Data[“attrs”]) plt.show()

图形优化/美化: plt.xlable() plt.ylable() # 坐标轴标签

plt.title() # 图标标题

plt.legend() # 图例

[4] 数据分布(具体/详细)情况

(限制:样本数不应少于50个)

箱线图可以很好的反应数据的离散情况,但不能提供数据的详细(内部)分布状况,需要使用直方图针对单个数据的具体分布情况进行展示。

  流程: 分组(组间距,组宽)          直方图(频数分布图)

函数: plt.hist(data[“attrs”]) plt.show()

b. R 语言

[1] 数据导入

Data = data.frame(read_csv(“name.csv”))

[2] 分析函数

summary() # 描述性统计分析

从不同方面、维度描述数据:

集中趋势: mean, 众数,中数, 四分位数

离散程度: std, var, 极差(max - min)

[3] 数据的直观表述

箱线图 :直观的离散分析工具

函数: boxplot(data, main=(“title”), col=c(“color”), ylab=(轴标记))

[4] 数据分布(具体/详细)情况

(限制:样本数不应少于50个)

箱线图可以很好的反应数据的离散情况,但不能提供数据的详细(内部)分布状况,需要使用直方图针对单个数据的具体分布情况进行展示。

函数: hist(data$attrs)


2. Z检验(U检验)

作用/目的 推断样本差异发生的概率,比较两个平均数差异的显著性。(分析/检验样本与总体/不同样本间的一致性)

原理: 标准正太分布

步骤:

(1) 建立虚无假设:即假定两个平均数之间无显著差异(不同样本/样本与已知总体间)。

(2) 计算统计量 Z(分两种情况)

    [1] 样本与总体

    已知: 样本:所有数据,可计算多个统计量(样本量n, 均值X,方差...)

          总体:均值/期望 u, 标准差 S

    [2] 不同样本间的差异(代表不同分布的总体)

    已知;样本1:X1, n1

          样本2:X2, n2

(3) 通过比较计算Z值与理想Z值,推断概率P,做出最终的显著性判断;


3.差异性(多样本)显著性检验--方差分析《Excel中有自动计算模块》

原理: 不同样本数据间的差异(SSt)由两部分原因组成:

    a. 组内差异(SSw) :随机误差;不可控

    b. 组间差异(SSb) : 可控;(由处理方式的不同造成的)

使用条件:[1] 可比性(随机,相互独立);[2] 正态性(非偏态);[3] 方差齐性(需要无显著差异,“若有明显差异,也不必使用”);

使用Hartley 检验 ==> 计算 F 值作为判断依据

(1) 适用性判断

    a. 各样本方差计算:

    统计分析得到:

    b. 确定P值并作推断,是否符合方差齐性(这是三个条件中最为重要的一点)

(2) 计算处理

    a. 预处理:求和, 求平方和

    b. 计算平方和(组内和组间)

    c.自由度计算

    d.均方计算

    e.F值计算

    f. 由P值做出推断(多样本之间是否存在显著差异)

方差分析(ANOVA)----转自“蓝鲸网站分析博客”

个人感触: 对于数据分析的学习断断续续也快有小半年了,其中开始过的关注与数据的数据分析的工具以及技巧性东西,在现在的自己看来或许很多时候对于数据的了解和预处理才是数据处理的基石和关键--数据处理前需要对数据来源及数据的产生有一定的了解(业务知识),而且在数据分析前对于数据的处理--数据分组,脏数据处理,数据格式转化等(处理的前提依据是你对于数据有大致的了解,基于业务基础你有一个比较明确的数据分析“目标”)

因此数据分析的前提与基础是对于数据分析的数据与数据的分析目标在数据分析开始都有一个清晰的认知。而且感触较深的是在工作过程中,业务需求是数据分析的主要初衷,只有对于业务有深入的了解和认知才能准确的进行数据获取--数据分析--结论应用实践--修正总结。

对于数据处理分析的工具,方法进行分配学习;方法对于需要从了解---掌握(应用)--熟知,前期可进行大量的阅读和搜索了解数据分析方法和模式,但是掌握还需要进行实际应用。工具--作为数据处理的辅助工具,目的是数据处理效率的提升。切不可本末倒置,数据处理的思维模式,数据处理方法和经验才是数据处理中的重点,当然不能说工具不重要,工具的熟练使用可以提高效率,节约最为宝贵的财富--时间。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,647评论 0 3
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,796评论 0 3
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,467评论 4 65
  • 最近董家一枝花实在是太忙了,为了自己挣钱都忙了快两个月了,忽然间知道这份工作的工资3个月发一次,唉呀!这可让...
    董家的一枝花阅读 434评论 1 3
  • 今天吃饭的时候,正好在看第二季的《跨界歌王》。 画面上正好是王珞丹在唱《左边》,十年前的《奋斗》里的一首曲子。看着...
    左手姑娘阅读 265评论 0 2