我 Python完全新手一个,才看了教程没两天,但是今天正好碰到难题,就决定拿Python实验一下,没想到竟然就成功了。那种成就感不言而喻。流程记录一下。
动因
最后的论文决定写和 IPO有关的内容,本来设定的时间范围是 01.2011 - 12.2013。可是昨天真的去找数据的时候,才发现数据库里的数据还没有更新一三年最后一个季度的。先不说别的,首先就是那三个季度里的 IPO的公司,我找不到他们的行业代码(SIC),初步筛选都做不了,又舍不得把这些公司全部剔除。
好在SEC的官网上有每家公司的 SIC信息,但是比较痛苦的是,SEC的搜索引擎一次只能搜索一家公司,出来一个公司的结果。也就是说,如果我要把缺的信息全部找到,我起码得搜索近二百次。这时候,我就开始打 Python的注意了。
目的
写之前,我已经想好大概这个小程序有什么样的功能。说来其实也很简单,我那时候已经发现 SEC搜索引擎给出的每个公司的页面地址是规律而固定的,我用 Excel很轻易地已经把所有将近二百个公司的查询结果页面的地址写出来了。所以,程序的目的就是便访这些地址,把期中带 “SIC=” 字样的信息和后四位数字摘取出来,生成文件。
代码
目的明确以后,凭着脑海里面对 Python那唯一一点理解,和网络上无数好心人的文章,终于捉摸出来了代码,并且运行成功。贴在这里,留个纪念,并请多指教。
out = open('C:/....../sic.txt','w') import urllib.request import re a = [ 'http://....', 'http://....', ...... ...... ...... 'http://....', 'http://....' ] for i in range(len(a)): response=urllib.request.urlopen(a[i]) html=response.read().decode("utf-8") s=re.search(r'(\SIC=....)',html) if s: print(s.group(0),file=out) else: print('sorry, no sic!',file=out) out.close()