在大数据领域工作和研究了一段时间,感觉数据对于智能非常重要,因此想研究一个能从各种数据源抓取数据的工具,例如从互联网的网页上抓取数据、从文档里抓取数据、从网络协议的数据包中抓去数据、从结构化的数据源抓去数据等,其中会涉及多种技术,从今天开始需要逐一研究和突破,期待通过5年的时间研究出工具产品(感觉时间有点久)。
主要需要突破的技术如下:
1、网页抓取
2、网页解析
3、前端配置
4、后端配置
5、NLP
后续会补充。
在大数据领域工作和研究了一段时间,感觉数据对于智能非常重要,因此想研究一个能从各种数据源抓取数据的工具,例如从互联网的网页上抓取数据、从文档里抓取数据、从网络协议的数据包中抓去数据、从结构化的数据源抓去数据等,其中会涉及多种技术,从今天开始需要逐一研究和突破,期待通过5年的时间研究出工具产品(感觉时间有点久)。
主要需要突破的技术如下:
1、网页抓取
2、网页解析
3、前端配置
4、后端配置
5、NLP
后续会补充。