使用 Excel 展示数据分析的算法

2021年6月16日 近期为了验证课程测试题,深入了解了下 Excel 数据分析的功能,找到一些有趣的技巧,记录一下。

满足条件的单元格的位置,及其引用

image-20210616093654895

在评估创业点子的盈利性(Profitability evaluation),绘制上面的表格(考虑TVM - Time Value of Money),算是基本的操作,即得到连续几年预估的收益情况。其中,投资回收期(Payback period)的计算,是评估盈利性的指标之一,也就是看在开始后未来某个时间点收回投资的时间点。

以前,都是眼睛看出来第5年中的某个点,然后手工完成计算:

PBP = 4年 + \frac{投资 - 第4年末的累积收益}{第5年的收益} = 4 + \frac{10000 - 8878.534}{2050.278} = 4.547

这次就想能否自动计算,也就需要知道

  • "Cumulative Value" 列中有多少行的数值低于投资 - 应该是4
  • 根据前面的数值,取得相应单元格的数据 - E5和D6,也就是 E(4+1)D(4+2)

为简便,将"Cumulative Value" 列中有多少行的数值低于投资单独设了一个单元格 - 即payback-period上面的4,表达式就是=COUNTIF(E2:E6,"< "&(A8)&" ")。其中,A8是投资额的单元格。

那么,payback-period右侧的单元格的计算公式就是:=COUNTIF(E2:E6,"< "&(A8)&" ")+(A8-INDIRECT("E"&(M9+1)))/INDIRECT("D"&(M9+2))。其中的INDIRECT("E"&(M9+1))INDIRECT("D"&(M9+2))也就是对E5和D6单元格的引用。

这个网页可以看看

20201104141905745
20201104142934199

求解置信区间中的边界值 - NORMINV()FINV(),``

在课程中梳理了统计学(基础部分),其实也就是围绕4个分布计算给定置信度置信区间,进而进行推断的过程。比如,下面的图就展示了所谓的ANOVA (Analysis of Variance: 方差分析)的计算,最后就要借助F分布来计算置信区间的边界值 - 即CI对应的单元格。

image-20210616095542541

CI单元格的计算公式是=FINV(C6,C5-1,C4-C5),其中的FINV()就是计算F分布置信区间边界值的函数。在得到置信区间边界值后,因为样本数据得到的F值(5.398)大于边界值(是SPE事件 - Small Probability Event),意味着我们有理由相信不同设计方案对销售没有影响的假设有可能是有问题的。

其他3个分布的置信区间边界值函数如下:

  • 正态分布 - = NORMINV()= NORMSINV()
  • 学生分布 - = TINV()
  • 卡方分布 - = CHINV()

当然,也有直接得到置信区间的函数 - = CONFIDENCE() -

计算值固定某些单元格,按某列的条件加另外一列,以及动态展示单元格的颜色 - KMeans算法展示

image-20210616101438823

计算值固定某些单元格

为验证 K-means聚类算法,就需要计算数据到固定点的距离。如上图中B和C列展示了5条数据,初始的质心是 M1和 M2,就需要计算那5条数据到 M1、M2的距离 - Dist-M1和Dist-M2。自然希望完成了一条数据的距离计算,直接拖拽来完成其他数据的距离计算,这就需要M1和M2的数据在计算中不能因为拖拽而改变。

I3单元格保存了数据A到M1的距离,计算公式为 =SQRT(POWER(B3-$F$3,2)+POWER(C3-$G$3,2)),其中的$F$3$G$3就是固定了的,当拖拽I3来计算I列其他数据到M1的距离时,$F$3$G$3都是固定的,没有被 $符号包围的就随之改变了,也就完成了其他数据到M1的距离计算。

动态展示单元格的颜色

另外一个就是希望能够根据数据距离M1和M2的远近自动以不同的颜色显示类别归属信息,即上图中K和N两列 - 两种颜色是根据距离的差异自动显示的。为此,需要使用Excel的条件格式

image-20210616103443556
  • 选中一个单元格,点击条件格式,点击 新建规则
img

如上图进行设定,然后拖拽刷新该列其他的单元格。

要注意,以上只是设定了一个颜色 - <= 0

按照同样的步骤,再建一个格式规则 (此次是 > 0),并指定不同的颜色,再次刷新其他的单元格,颜色就自动出现了。

其他列类似处理即可。

按某列的条件加另外一列

在K-means计算中,按照质心更新类别后,还需要计算新的质心,也就需要借助更新后的类别来计算新质心的坐标。

image-20210616110557137

如上图,在初始的M1和M2聚类后,K列展示了按照初始M1和M2的聚类,那么,下一个循环就需要按照更新的聚类信息计算新的质心。I12单元格计算了新的M1的X坐标,计算公式为 =SUMIF(K3:K9,"<=0",B3:B9)/COUNTIF(K3:K9,"<=0")。其中的SUMIF(K3:K9,"<=0",B3:B9)就是按照 K3:K9列中满足 "<=0"的行,将B3:B9中对应的行上的单元格数据相加。效果就是基于A和B两条数据计算新M1的坐标 - 因为按照初始的M1和M2值, A和B离初始的M1更近。

Excel自带的数据分析工具

img
img
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容