240 发简信
IP属地:河北
  • 代理的基本原理

    在做爬虫时有时会遇到这种情况,最初爬虫正常运行,正常抓取数据,但一段时间后可能会出现错误,如403 Forbidden,这时打开网页可能会看到“您的IP访问频率太高”的提示。...

  • 120
    Session和Cookies

    对于需要登录的情况,有些页面只有登录后才可以访问,而且登录之后可以连续访问很多次网站,但有时候过一段时间就会需要重新登录。还有些网站在打开浏览器时就自动登录了,而且很长时间都...

  • 爬虫基本原理

    我们可以把网路比作一张大网,而爬虫便是在网上爬行的蜘蛛,可以把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面获取了信息,节点间的连线比作网页与网页间的链接,这样蜘蛛通...

  • 120
    Web网页基础

    网页可以分为三部分,HTML、CSS、JavaScript,HTML 定义了网页的内容和结构,CSS 描述了网页的布局,JavaScript 定义了网页的行为,三者结合起来才...

  • 120
    HTTP基本原理

    在本节会详细了解HTTP的基本原理,了解在浏览器中敲入一个URL到获取网页内容发生了一个怎样的过程,了解这些有助于进一步了解爬虫的基本原理。 1.URI和URL URI 全称...