学习阶段二(update:2014-3-25):实现功能:代码中加入for循环,批量抓取全部tag,存放到本地txt代码如下:
# -*- coding: cp936 -*-
import urllib2
import re
raw_text=urllib2.urlopen('http://movie.douban.com/tag/?view=type').read()
text0=re.findall('"./.*?"',raw_text)#初步抓取tag,findall输出为list
text1=''.join(text0)#list转str,方便replace
text2=text1.replace('"./','').replace('"','\n')#tag提取完成
text3=[]#新建空list,方便后面append
for text4 in text2.split('\n'):#for in对象需为list,用split将str转为list
tagurl='http://movie.douban.com/tag/%s'%text4#讲URL前缀同tag拼接,方便后期多tag抓取
text3.append(tagurl)#循环赋值到空列表
text5='\n'.join(text3)#排版格式,\n换行符
e=file('douban_movie6.txt','w')
e.write(text5)
e.close()
学习总结:1、多用print,不仅可以帮助自己更好的排查错误,也可以更好的理解程序的运行逻辑。2、多用print type()。现阶段对每种函数生成结果的存储类型还不熟悉,根据想当然的思路写通常会报错,都是数据类型不支持。3、初步明白for in的用法,对% 用法进一步了解4、list.append() 进一步了解。接触一种函数不仅要明白怎么用,还得留意函数输出后的数据类型