240 发简信
IP属地:湖北
  • Resize,w 360,h 240
    利用API获取豆瓣即将上映的20条电影信息

    利用爬虫爬取网页数据主要有两种方式:第一种是直接爬取HTML网页内容,它的好处是可以自定义爬取的内容,弊端是很多时候这种行为是被网站禁止的,并且...

  • Python分词组件——jieba使用报告

    一、安装jiaba jieba库的下载地址(支持Python2和Python3):https://github.com/fxsjy/jieba下...

  • Resize,w 360,h 240
    Apache Tika学习使用报告

    一、Tika 简介 1. 基本介绍 Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文...

  • Resize,w 360,h 240
    scrapy爬取豆瓣图书TOP250实验报告

    一、实验目的 实验对象:豆瓣图书 Top 250 (https://book.douban.com/top250)实验内容:用scrapy框架编...

  • 亚马逊 robots.txt 文件解析

    一、robots协议 robots协议,也称爬虫协议,网站会在 robots.txt 文件中声明哪些内容可以爬取,哪些内容不能爬取。robots...

  • ICT环境下信息组织的任务与挑战——读《新数字秩序的革命》有感

    在信息爆炸的时代,每天都有大量的信息数据产出,作者在文中的主题是信息的秩序和组织方式,我认为正是从信息管理的角度入手思考的,这也能给我们信管专业...

  • Resize,w 360,h 240
    知乎网的信息架构

    一、网站地图&分类体系 1、网站地图 知识社区 【话题】游戏 运动 互联网 艺术 阅读 美食 动漫 汽车 生活方式 教育 摄影 历史 文化...