【Python爬虫】-【第四周】01-作业

1.作业内容:
①未安装requests包的安装包,谷歌浏览器安装
②爬虫知识学习什么是url,header请求头,网页源代码,简单了解html标签
③requests包的使用get方法 返回网页源代码
④打印输出简书首页的源代码


2.作业解答
2.1安装requests包
2.1.1cmd终端安装
pip install requests
2.1.2pycharm安装
Pycharm>Settings>Project:Pycharmwork>Project Interpreter
见面右边是已安装模块列表及版本号,点击右上角“+”号搜索安装可用的库。
2.1.3检查requests库是否安装
打开Python可交互式编译器,输入import requests回车,不报错即表示requests库已安装。
2.2 爬虫知识学习(了解url、header请求头、网页源代码、html标签)
2.2.1此处ur即通常意义上的网址
2.2.2header请求头
以下是《Python网络数据采集》中的一段话:

我们通过下面的例子让你对浏览器获取信息的过程有一个基本的认识。Alice 有一台网络服务器。

  1. Bob 有一个台式机正准备连接 Alice 的服务器。当一台机器想与另一台机器对话时,下面的某个行为将会发生。Bob 的电脑发送一串 1 和 0 比特值,表示电路上的高低电压。这些比特构成了一种信息,包括请求头和消息体。请求头包含当前 Bob 的本地路由器 MAC 地址和 Alice 的 IP地址。消息体包含 Bob 对 Alice 服务器应用的请求。
  2. Bob 的本地路由器收到所有 1 和 0 比特值,把它们理解成一个数据包(packet),从 Bob
    自己的 MAC 地址“寄到”Alice 的 IP 地址。他的路由器把数据包“盖上”自己的 IP 地址作为“发件”地址,然后通过互联网发出去。
  3. Bob 的数据包游历了一些中介服务器,沿着正确的物理 / 电路路径前进,到了 Alice 的服务器。
  4. Alice 的服务器在她的 IP 地址收到了数据包。
  5. Alice 的服务器读取数据包请求头里的目标端口(通常是网络应用的 80 端口,可以理解成数据包的“房间号”,IP 地址就是“街道地址”),然后把它传递到对应的应用——网络服务器应用上。
  6. 网络服务器应用从服务器处理器收到一串数据,数据是这样的:
    ♦ 这是一个 GET 请求
    ♦ 请求文件 index.html
  7. 网络服务器应用找到对应的 HTML 文件,把它打包成一个新的数据包发送给 Bob,然后通过它的本地路由器发出去,用同样的过程回传到 Bob 的机器上。

这段话大致介绍了请求头在浏览器发送、收取消息中的一些作用。了解到此应该也基本够用了。
2.2.3网页源代码
我们通常所见的网页信息是浏览器将网页源代码翻译成我们比较能接受的展现形式。HTML 是用来描述网页的一种语言,我们看到的网页的源代码是由HTML 文本格式层、CSS 样式层、JavaScript 执行层和图像渲染层构成,这些信息都包含在网页源代码中,由浏览器"翻译"我们所见的样式。
ps:查看网页源代码:谷歌浏览器,任意网页页面,鼠标右键菜单中有查看源代码选项。
2.2.4html标签
W3School有HTML的一些入门介绍。
http://www.w3school.com.cn/html/html_jianjie.asp

  • HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
  • HTML 标签是由尖括号包围的关键词,比如 <html>
  • HTML 标签通常是成对出现的,比如 <b> 和 </b>
  • 标签对中的第一个标签是开始标签,第二个标签是结束标签
  • 开始和结束标签也被称为开放标签和闭合标

3.requests包的使用get方法 返回网页源代码
3.1requests包快速入门上手指南
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
3.2 打印输出简书首页源代码

import requests # 导入requests模块

r = requests.get("http://www.jianshu.com/") # get()函数获取简书首页源代码,并将对象存储于变量r

print(r) # 输出结果为<Response [200]>,响应状态码
print(r.status_code) # 响应状态码

print(r.text) # 打印输出简书首页的源代码
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容