(作业都在这篇文档中,每天更新,请保存一下地址,谢谢~)
提交作业方式:
第一组的同学,第一周(4.17~22)群内直接提问,截屏发自己的进度。
第二组的同学,要求把项目思路和结果写成文章,发到专题。
推荐代码提交到 github
2017-5-8 作业 18:
一组:1)文件读写,爬取数据写入csv或Excel; 2) 爬取数据存入数据库
二组:(晚上发布:最终项目)
2017-5-7 作业 17:
今天的作业是选做题,听了昨晚的分享,你有什么笔记、感悟或思考,可以写下来,仍然投到作业专题。
2017-5-6 作业 16:
推荐几篇文章,使用大家整理复习。鼓励大家多写多总结。
- 阮一峰老师文章的常识性错误之 Unicode 与 UTF-8
- Python爬虫基础 | 字符串和编码
- Python爬虫基础 | 爬虫反ban的技巧
- 爬取知乎问题答案赞同最多数据--单线程完整版
- python爬虫——知乎(关于python的精华回答)
- Selenium在异步加载中的应用
2017-5-5 作业15:
今天没有新任务,整理
整理前一段时间的内容,进度和问题。
2017-5-4 作业14:
一组:MySQL基本操作, SQL语句
二组:整理了解基本的爬虫防Ban措施
嘉宾分享提问收集。
2017-5-3 作业13:
一组 重点,理解结构化数据抓取,选取好循环点,分析网页代码,会调试。
010 - 使用BeautifulSoup和XPath抓取结构化数据
2017-5-2 作业12:
一组 本周内容:
BeautifulSoup和XPath
008 - 爬虫处理流程及网页解析
009 - 使用XPath解析网页了解MySQL
二组 本周内容:
爬取两个站点:微博和知乎,把知乎上Python学习的高分回答抓取下来。
2017-4-28 作业11:
整理一周进度,把遇到的问题写下来,准备答疑交流。
2017-4-27 作业10:
一组内容:
从一小段代码开始,理解爬虫。007 - Python简单爬虫 - 正则表达式
需要的知识点:网络请求,源代码定位分析(HTML),正则表达式,Python网络访问库,逻辑基础。
需要说明的是,文章中代码方式(urllib+正则匹配方式)不是后续写爬虫的主要方式。
二组内容:
开始提交项目代码流程和结果分析。
2017-4-26 作业9:
一组内容:
1)了解HTML文档结构
2)了解常用的HTML标签 <a>,<img>,<p>,<div>,<ul>,<li>,<span>
3)了解url,分页url的基本规律
4)了解HTTP请求响应的过程
2017-4-23 作业8:
一组:HTML基础 & 正则表达式 (此内容2~3天)
了解HTML基本内容即可,HTML教程
正则表达式:
- 视频学习
-
Python正则表达式指南
本周还要强化编程逻辑练习
二组:本周要爬取的站点两个:拉钩网(Python工程师岗位,数据分析师岗位),豆瓣读书(比较 简书-读书,京东读东,学习数据处理、分析方法)
2017-4-22 作业7:
群内集中答疑辅导
2017-4-21 作业6:
一组:完成 万年历逻辑功能,学习函数调用
集中答疑交流
二组:集中答疑交流,爬虫流程分析,url分析
2017-4-20 作业5:
一组:完成 万年历的界面打印,学习函数定义、调用
二组:参考爬虫小分队二组作业题-20170420 ,把自己的代码和疑问整理一下,包括进度方面的问题,周末综合答疑。
2017-4-20 作业4:
一组:完成 循环语句
练习:求出1000以内的完全数有哪些
周六带着大家对本周所有知识点进行梳理。
二组:作业项目截止提交,把爬取的思路、结果写成文章,最好能加上一些对数据的处理和分析。
2017-4-19 作业3:
一组:完成 条件语言
练习:判断一个年份是不是闰年
一组的进度,如果每天都完成比较快,可以往前赶,本周需要完成的任务:002 - Python 程序逻辑训练3题
2017-4-18 作业2:
一组:完成变量和数据类型,操作符
二组:
第2组 简书热门文章数据(3天完成 4.18-20)
抓取简书七日热门数据,如果有时间加以分析
http://www.jianshu.com/trending/weekly
爬取数据字段:
1.用户
2.标题
3.阅读量
4.评论量
5.获赞量
6.打赏数
7.文章发表时间
(文章类别,来自哪个专题。选做)
数据保存为CSV或Excel
2017-4-17 作业1:
填写提交学习情况调查表。
安装Python和Python开发环境。
2017-4-16 作业0:
把自己学过的Python内容梳理一下(其他编程语言的情况也写出来),之前学习中的问题、困难点都可以提出来,每天的学习时间安排,写成文章,投到 Python爬虫作业
刚刚开始学习的同学,看我简书上000-002文章,了解尝试安装Python环境。