背景
工欲善其事,必先利其器。想要做量化,数据是基本,相关数据主要分成两个部分,此篇分析非交易数据的获取。
存储方案
考虑到非
离线要求:数据源大而广,适合离线分析,完善的数据补全方式
在线要求:数据小而快,为了能最快的获取在线分析要求的数据,在存储的时候应尽量保存最小集,保证数据库查询的效率
技术选型:离线数据引擎-maxcompute, 在线数据引擎-mongodb
爬虫
框架: scrapy
数据源: 新浪财经,同花顺和东方财富
问题分析:新浪财经和同花顺的数据比较好获取,内容赤裸裸的放在html 里,基本没有做js的数据隐藏,反爬虫的策略也比较简单。东方财富的数据基本都是通过js渲染出来的,需要使用浏览器模拟,比较影响大规模爬取的性能
Name | odps表 | 来源 | 更新周期 |
---|---|---|---|
股票概念数据 | quant_crawler_concept | 同花顺 | 不定期更新(手动) |
股票重要事件 | quant_crawler_event | 同花顺 | 每日更新 |
股票机构调研 | quant_crawler_survey | 同花顺 | 每日更新 |
股票股东人数 | quant_crawler_holder | 同花顺 | 每周更新 |
股票公司公告 | quant_crawler_announcement | 同花顺 | 每日更新 |
股票新闻数据 | quant_crawler_news | 同花顺 | 每日更新 |
研报数据(部分) | quant_crawler_report_ths | 同花顺 | 每日更新 |
研报数据(全量) | quant_crawler_report | 同花顺 | 每周更新 |
股票行业分类 | quant_crawler_industry | 同花顺 | 不定期更新(手动) |
基金持股 | quant_crawler_fund | 东方财富 | 每三个月更新 |
分配预案 | quant_crawler_profit_share | 新浪 | 每日更新 |
业绩预告 | quant_crawler_forecast | 新浪 | 每日更新 |
限售股解禁 | quant_crawler_xsg | 新浪 | 每日更新 |
融资融券 | quant_crawler_rzrq | 新浪 | 每日更新 |
业绩主表 | quant_financial_report | 新浪 | 每日更新 |
盈利能力 | quant_financial_profit | 新浪 | 每日更新 |
运营能力 | quant_financial_operation | 新浪 | 每日更新 |
成长能力 | quant_financial_growth | 新浪 | 每日更新 |
偿债能力 | quant_financial_debtpaying | 新浪 | 每日更新 |
现金流量 | quant_financial_cashflow | 新浪 | 每日更新 |