【Chapter 1】准备工作
今天开始做《利用 Python 进行数据分析》的笔记,由于这本书用的是 2.7 版本的,把它用 3.0 版本实现对我来说也是一种挑战,我会加油的。
本书主要内容
本书讲的是利用 Python 进行数据控制、处理、整理、分析等方面的具体细节和基本要点。
本书重点介绍了由于高效解决各种数据分析问题的 Python 语言和库,本书没有阐述如何利用 Python 实现具体的分析方法。
-
我们说的数据指的是结构化的数据(structured data),比如:
- 表格型数据,每一列有不同的类型(字符串,数字,日期等)。这种情况是我们最常见到的,常见于用tab-或逗号分隔的文件(比如CSV文件)
- 多维数组(Multidimensional arrays,比如矩阵)
- 用一列作为键(比如SQL中的主键和外键),整合多个表格的数据
- 时间序列数据
大部分数据都可以被转化为结构化数据,方便进行分析和建模。如果无法转化,那么我们可以从数据集中抽取特征,做成一个结构化的形式。举个例子,新闻可以被处理为单词频率表格,然后我们可以对其进行情感分析(sentiment analysis)。
重要的 Python 库
-
Numpy
Python 科学计算的基础包,除了为 Python 提供快速的数组处理能力,NumPy 还作为在算法之间传递数据的容器。
-
pandas
本书的主角,用于进行数据处理和清洗的利器。
-
matplotlib
用于绘图和数据可视化的 Python 库。
-
IPython
增强型的 Python shell,主要用于交互式数据处理和利用 matplotlib 对数据进行可视化处理。
-
SciPy
安装和设置
Windows下 Anaconda 的安装和简单使用
安装完 anaconda,就相当于安装了 Python、IPython、集成开发环境Spyder 等等包。
- Anaconda使用总结
- Windows下Anaconda的安装和简单使用(建议将第一个选项框(Add Anaconda to my PATH environment variable)选上。然后点击Install )
- 初学Python者自学anaconda的正确姿势是什么
Installing or Updating Python Packages(下载和更新Python库)
可以使用conda和pip两种工具进行库的下载和更新:
conda install package_name
但有时候一些库不在 Anaconda 的服务器上,上面的命令会失败。这个时候我们可以使用 pip(pip 是一个python的包管理工具):
pip install package_name
conda更新:
conda update package_name
pip更新:
pip install --upgrade package_name
这两个下载方式都可以用,不会冲突的。不过不要使用 pip 来更新用conda 下载的包,这会导致库之间的依赖出现问题。所以在使用Anaconda的时候,最好先尝试使用 conda 来更新,不行的话再使用 pip。