先是在网上找到一堆资料,同时配合马哥的视频在理解这个语言。
参考学习资料:Python 入门指南中文版
这个语言的重要性,不用我来强调了,反正现在要用到,那就只有学习了,好在前面学习了R,和linux基础的知识,现在学习Python感觉并没有太难,总的来讲Python就是综合了R和Linux的一些优点,比较人性化的让人和计算机沟通的一种工具。Python也是有很多扩展包的支持,跟R特别像,还有函数,变量等等很多都是类似的。
在菜鸟团的推送也有学习目录生信分析方向如何系统入门python3(2019持续更新)
第一步 安装编码解释器PyCharm
非专业选手,选择下载python https://www.python.org/downloads/中的Community社区版本。
这个PyCharm基本上就跟RStudio差不多的一个软件,可以新建一个脚本,写代码一行行调试,调用各种包及相应的函数。整个操作过程基本上和RStudio差不多。
估计单纯的R和终端的Python shell差不多。因为一直用RStudio不太清楚。
安装教程:https://www.jetbrains.com/help/pycharm/installation-guide.html
第一次安装使用点击最下面的Run PyCharm for the first time.
安装过程中如有必要下载相应的插件,就在上面那个官方网站下载即可。
完整的中文教程及使用原则如下:
三剑客 PyCharm安装测试
第二步 使用PyCharm创建一个任务进程
创建和管理Projects
基本上和创建一个.Rproj
过程一样创建一个.idea
一个虚拟内存环境,然后在创建一个脚本.py
进行脚本编辑,基本上也是和.R
的创建过程一样。所以原则应该也是差不多的,每个任务创建一个目录然后所有的东西都放在一起好管理。
认识Python包
常用的来处理生物信息学的包比较少,不像R的bioconductor那么好有独立的管理工具。
但是目前前辈们已经总结了一些好用的包:
强烈建议参考简书作者白墨石的推送:【如何快速自学生物信息学】
Biopython 包
一般生信分析脚本的工具集。包括核酸序列处理,NCBI,UniProt数据库操作等其他常用的生信工具。
中文教程:https://biopython-cn.readthedocs.io/zh_CN/latest
英文教程:http://biopython.org/DIST/docs/tutorial/Tutorial.html
GitHub:https://github.com/biopython/biopython
pandas 包
用于分析结构化数据的python包,包括对数据去空值,统计值计算,添加,删除,插入,修改,提取等等操作。由于底层基于C,所以可以处理大型文件而且具有很快的分析速度。
英文教程:https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
Matlibplot 包
其实就是在python环境中的MATLAB (科学制图里大神级的软件),而且和它语法结构和用法大致相同。
相当于R里面的ggplot2,只是一个运行与R环境一个是Python环境里的可视化工具包,这两款看个人喜好来学习一个,另一个了解就好。
英文教程:https://matplotlib.org/
作者:白墨石
链接:https://www.jianshu.com/p/367b2a14f046
他的推送里面除了这个还有很多其他有用的资料。
我学习Python的目的只是为了能读懂代码,听说掌握了规律,基本上就能读懂。这点比较吸引我,我自己是不会去做编程的。但是要用到这个工具首先得认识,知道怎么用。所有学习说明书还是很有帮助的。
下面是白先生的Python生信分析系列先收藏了,方便后面学习。
生物信息中的Python 01 | 从零开始处理基因序列
生物信息中的Python 02 | 用biopython解析序列
生物信息中的Python 03 | 自动化操作NCBI
生物信息中的Python 04 | 批量下载基因与文献
然后还有菜鸟团的作者 大土豆力 的精彩推送:
十分钟入门潘大师(Pandas)
图解NumPy包一文就够了
NumPy正确食用指南
千万千万不要犯松鼠症,一个劲的收藏都不看!!!!
最后友情宣传生信技能树
全国巡讲:R基础,Linux基础和RNA-seq实战演练 : 预告:12月28-30长沙站