_张旭 - 简书

_张旭

IP属地：江苏

scrapy实用技巧
在使用scrapy过程中总结了一些小技巧，在此分享出来供大家参考。用 LinkExtractor 收取链接以 http://www.hao1...

405 0 0
scrapy启动多爬虫
一般启动方式命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。参见官方文档比如你可以配置爬虫采集到数据的输出方式: ...

2238 1 0

Scrapy扩展
先看一个例子解释 Scrapy API的主要入口是 Crawler 的实例对象，通过类方法 from_crawler 将它传递给扩展(ext...

535 0 0
Scrapy环境的搭建
升级Python3 之前使用Scrapy开发爬虫都是在Python2的环境下进行，最近有看到有些工具包宣称不再对Python2提供更新和维护， ...

682 0 1
HTTPS 环境搭建
申请证书登录阿里云管理控制台 CA证书服务 -> 购买证书选择免费型DV SSL 品牌 Symantec 购买 -> 支付回到步骤2证书...

381 0 0
Hive常用操作
创建表简单的建表从查询结果创建表克隆表此处是指克隆表结构，并不会克隆表数据。创建从格式化文本文件导入的表创建 orc 表 ORC表支...

1100 0 0
matplotlib 简单上手
本文总结自途索的慕课网课程，增加了些自己的理解。 matplotlib 是一个优秀的数据可视化库，可以很方便的使用Python生成方便我们分析的...

362 0 0

短文本分类 (一): 构建词向量
前期工作我的目标是利用tenserflow得到一个可以对新闻标题进行准确分类的分类器。首先我需要有新闻标题的原始数据，因此我从今日头条抓取了...

0.1 4061 0 2
数据库设计那些事
本文为慕课网课程数据库设计那些事的笔记。什么是数据库设计简单来说就是为我们的业务系统构造出最优的数据存储模型。数据库的设计步骤需求分析 ...

528 0 0