用在数据科学上的 Python:你可能忘记的 8 个概念

问题

如果你在编程的时候发现自己一遍又一遍的搜索同一个问题、概念或者语法,那么你并不孤单。

Python学习资料或者需要代码、视频加Python学习群:960410445

我自己也经常这样。

虽然在 StackOverflow 和其他资源网站搜索很正常,但是它对你的好处比较小,并且会增加你理解这门语言的困难。

我们生活在看起来有无限信息和无穷免费资源的时代,似乎搜索一下就把问题解决了。然而,这可能既是祝福也是诅咒。如果不能有效的管理和整合,过度依赖这些资源会阻挡我们长期进步。

来源:xkcd

我发现自己有几次从论坛上复制代码并修改,而不是花时间去学习和巩固我下次可能遇见的知识点。

这个方法比较懒。虽然这个方法可能是短期阻力比较小的一个,但是这最终会伤害你的成长、效率和回想语法的能力。

目标

最近我在 Udemy 通过了一个名为「数据科学和机器学习中的 Python」的在线课程。通过这一系列的课程,我整理了一些我在 Python 数据分析中所忽视的语法和概念。

为了巩固我对这些理念的理解和便于你们在 StackOverFlow 进行搜索,这里我整理出了我在使用 Python,Numpy,Pandas 中的一些知识点。

对于每一个知识点我都给出了简短的描述和例子。另外,我也给出了视频和其他的资料的链接,这些有助于加深这些知识点的理解。

列表推导式 

在写循环的时候,每次定义一堆的列表是相当无聊的。幸运的是,Python 内置了一种名为列表推导式的方法,这种方法仅仅使用一行代码就可以解决这个问题。列表推导式刚开始对你来说可能有些困难,但是你一旦熟悉,你就会经常使用。

来源: Trey Hunner

下面的第一个例子是求每一个元素平方的的普通写法,第二个是列表推导式的写法。

x = [1,2,3,4]

out = []

for item in x:

   out.append(item**2)

print(out)[1, 4, 9, 16]

# vs.

x = [1,2,3,4]

out = [item**2 for item in x]

print(out)[1, 4, 9, 16]

Lambda 函数

有些函数只需要用几次就需要定义一个新函数,你是否对此厌烦呢?lambda 函数可以解决这个问题!Lambda 函数在 Python 中通常被用来构建应用次数比较少的的匿名函数。也就是让你构建一个了不带名字的函数。

Lambda 函数的基本语法如下:

lambda arguments: expression

普通函数能做的,Lambda 函数也都能做,只要它们能够写成一行。下面这个简单的例子和视频能够更好的让你理解 Lambda 函数的强大之处。

double = lambda x: x * 2

print(double(5))

10

Map 函数与 Filter 函数

当你掌握了 Lambda 函数,然后将 Lambda 函数和 map,filter 函数一起使用,你会发现威力巨大。 具体的说,map 函数通过对列表中的每一个元素进行操作,将列表转换成一个新的列表。在下面的这个例子中,map 函数将每一个元素乘以 2,变成一个新的元素。注意这里的 list 函数只是简单的将输出结果转化为 list 类型。

# Map

seq = [1, 2, 3, 4, 5]

result = list(map(lambda var: var*2, seq))

print(result)[2, 4, 6, 8, 10]

Filter 函数类似于 map 函数,但是 filter 函数通过比较每一个元素是否为真从原始列表中抽取子集。

# Filter

seq = [1, 2, 3, 4, 5]

result = list(filter(lambda x: x > 2, seq))

print(result)[3, 4, 5]

Python: Lambda, Map, Filter, Reduce Functions :

https://youtu.be/cKlnR-CB3tk

Arange 函数 和 Linspace 函数 

快速创建简单的 NumPy 数组,使用 arange 和 linspace 函数最合适不过了。 它们都有各自特定的功能,但在这里使用(不是使用范围)在于其产生的 NumPy 数组,对于数据科学通常更容易操作。 

Arange 函数,根据 start 和 stop 指定的范围以及 step 设定的步长,生成指定间隔的均匀间隔序列。除了开始值 start 和结束值 stop,还可以根据需要定义步长 step 或数据类型。这里需要注意,结束值是一个「截止」值,所以不会包含在生成的数组中。

# np.arange(start, stop, step)

np.arange(3, 7, 2)

array([3, 5])

Linspace 函数非常相似,但略有不同。它根据 start 和 stop 指定的范围以及 num 设定的个数,生成指定个数的均匀间隔序列。因此,给定一个开始值 start 和结束值 stop,以及个数值 num,linspace 函数将在 NumPy 数组中均分这个范围。这在数据可视化和绘图时轴的声明很有用。

# np.linspace(start, stop, num)

np.linspace(2.0, 3.0, num=5)

array([ 2.0,  2.25,  2.5,  2.75, 3.0])

什么是轴 Axis

使用 Pandas 删除列或对 NumPy 矩阵元素求和时,你可能会遇到这个问题。如果没有,那么之后也一定会遇到。下面给出删除列的示例:

df.drop('Column A', axis=1)

df.drop('Row A', axis=0)

在我真正知道为什么需要声明轴是什么之前,我编写了无数次这行代码。从上面的代码中,你可以推断出,如果对列进行操作需要将 axis 设置为 1,对行操作则将其设置为 0。但这是为什么呢?我喜欢探求原因,或者至少我记得这个:

df.shape

(# of Rows, # of Columns)

查看 Pandas 中 dataframe 的 shape 属性会返回一个元组,其中第一个值表示行数,第二个值表示列数。想想 Python 中的索引方法——行为 0 列为 1,这与我们声明轴的方法非常相似。很有意思,对吧?

How do I use the "axis" parameter in pandas?:

https://youtu.be/PtO3t6ynH-8

Concat 函数、Merge 函数和 Join 函数

如果你熟悉 SQL,那么这些函数方法可能会更容易理解。其实它们本质上都只是以一定方式合并 dataframe 的方法。哪种情况下用哪个最好很难说,所以让我们再回顾一下。

Concat 函数可以在下方或旁边合并一个或多个 dataframe(取决于如何定义轴)。

Merge 函数在作为主键的指定公共列上合并多个 dataframe。

Join 函数合并两个 dataframe 的方法与 merge 函数类似。但是,它根据索引合并 dataframe,而不是某些指定列。

可以通过查看优秀的 Pandas 文档,了解特定用法和更具体的示例,以及你可能遇到的一些特殊用法。

Youtube:

https://youtu.be/XMjSGGej9y8

Pandas 的 Apply 函数

你可以把 apply 函数想做地图功能,但它只对 Pandas 的 DataFrame 或者更具体地说是 Series 进行操作。如果你不熟悉 Series,其实它在很多方面都与 NumPy 数组非常相似。

Apply 函数会对你指定的列或行中每个元素作用一个函数。你可以想象到这是多么有用,尤其式当你对整个 DataFrame 列进行归一化和元素值操作,而不必进行循环。

Python Pandas Youtube 教学视频:

https://youtu.be/P_q0tkYqvSk

Pivot Tables 数据透视表

最后但同样重要的是数据透视表。如果你熟悉 Microsoft Excel,那你可能已经在某些方面听说过数据透视表。Pandas 内置的 pivot_table 函数可以将电子表格样式的数据透视表创建为 DataFrame。需要注意的是,数据透视表中的级别存储在创建的 DataFrame 层次索引和列中。

结语

我希望你在使用 Python 进行数据科学操作时,可以通过经常遇到的一些重要但有些棘手的方法、函数和概念对上述方法有效地慢慢记忆。就我个人来说,写出这些并试图用简单的术语解释它们也更加加深了我对这些知识的理解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • 目录: 5.1 pandas 的数据结构介绍 5.1.1 Series 5.1.2 DataFrame 5.1.3...
    凌岸_ing阅读 4,732评论 0 17
  • 至于第六层,那层是领导的办公室,当天听说领导们都去开会了,也没有必要探索,再说现在人数确实有些头疼,一辆车确...
    广君阅读 260评论 0 0
  • 我是一个没有目标感的人,貌似天生对于数字没那么的敏感,做事情多以主观的感觉做判断,后来就是所谓的经验主义。 Tim...
    Warrior_J阅读 166评论 0 0
  • 今天的状况既在意料之中,又有点出乎意料。 早上六点钟闹铃想起,磨蹭了一会,洗漱,上班,和任何一个上班的早...
    大李和小李阅读 404评论 0 0
  • 把一片片情意化成一只只蝴蝶,放下,一挥手翩然而去。 把一缕缕思念翻成一朵朵浪涛,看破,一转身浪迹天涯。 把一段段时...
    慈悲叶阅读 409评论 0 0