#coding=utf-8
import re,urllib2,os,urllib,requests
def getHtmlCode(url):
response = urllib2.urlopen(url)
return response.read()
def getEntityId(htmlString):
regEntityId = re.compile("\"(.+?)\",\"goods_id")
return regEntityId.findall(htmlString)
def getMp3Url(htmlString):
regMp3Url = re.compile("mp3\",\"url\":\"(.+?).mp3")
return regMp3Url.findall(htmlString)
def getTitle(htmlString):
regTitle = re.compile("\"title\":\"(.+?)\"")
return regTitle.findall(htmlString)
def getPublishTime(htmlString):
regUpdateTime = re.compile("published_at\":\"(.+?) ")
return regUpdateTime.findall(htmlString)
if __name__ == '__main__':
url = 'http://36kr.com/user/947181171'
htmlCode = getHtmlCode(url)
entityIds = getEntityId(htmlCode)
for content in entityIds:
contentSplitArray = content.split("\"")
entityId = contentSplitArray[len(contentSplitArray) - 1]
contentUrl = 'http://36kr.com/p/' + entityId + '.html'
contentHtmlCode = getHtmlCode(contentUrl)
mp3Urls = getMp3Url(contentHtmlCode)
titles = getTitle(contentHtmlCode)
publishTimes = getPublishTime(contentHtmlCode)
fileName = publishTimes[0] + ' ' + titles[0]
# if len(fileName) > 35:
# fileName = fileName[0:35]
print fileName
mp3Url = mp3Urls[0] + '.mp3'
print mp3Url
if os.path.isfile('/Users/wuxueying/Desktop/python/audios/' + fileName + '.mp3') == False:
urllib.urlretrieve(mp3Url,"%s.mp3" %("audios/" + fileName))
print (fileName + '------done')
下载36氪 播氪的音频
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 通常用AVPlayer播放媒体,简单的实现都是 然后通过KVO和通知中心可以监听播放器的资源变化(准备好,播放完毕...
- 1、起 前天在朋友圈,看到表哥发的图文,感谢一位陌生的小伙子将他突发心脏病的父亲送进医院,我忙电话过去,不通,便拨...
- 缘起:我是在跟舒砚说起缺乏时间管理的困惑时,她推荐了叶武滨老师编写的《善用时间》喜玛拉雅音频课给我,后来我生命中的...