摘要:本文主要是使用python对文件进行一些简单的操作,系统路径的一些操作,以及压缩包的解压,压缩,新建压缩文件,捕获异常,抛出异常,还有一个超简单的网页信息获取,获得其中的超链接.
1,文件操作
python的文件夹操作模块"os",编写程序之前需要import os,对于文件的操作反而不用模块,下面是一个文件读取,以及写入程序.
函数的定义形式
def 函数名(参数,参数......):
函数体
return 返回值
文件打开方式还有'r' , 'w'(写,会清除文件内容) .
2,文件夹操作
可以使用split( path )对路径进行切分得到各个文件夹的名称列表
os.makedirs("文件夹名字"),创建文件夹
os.path.abspath(path)将返回参数的绝对路径的字符串
os.path.isabs(path),如果参数是一个绝对路径,就返回True
os.path.relpath(path, start)将返回从start 路径到path 的相对路径的字符串
os.path.dirname(path)将返回path 参数中最后一个斜杠之前的所有内容。
os.path.basename(path)将返回path 参数中最后一个斜杠之后的所有内容
os.path.getsize(path)将返回path 参数中文件的字节数
os.listdir(path)将返回path中的文件和文件夹列表
os.path.exists(path)判断路径是否存在, os.path.isfile(path)判断是否为文件 os.path.isdir(path)判断是否为文件夹,返回值都是Ture 或者 false.
3,zipfile解压和压缩文件
解压文件使用zipfile.ZipFile("文件名")就能获得,文件的打开方式基本和文件操作一样,追加使用a.新建zip文件的话直接使用 zipfile.ZipFile("文件名",'w')就行.
4,异常处理
捕获异常,使用try 和 except语句,可以是下面这样的输出错误信息.
手动抛出异常使用raise, 例如: raise Exception("错误信息!!!"),其他的异常处理诸如"断点" 和"日志"但是学得不好.
5,获取页面信息
整个页面获取只需要发送http协议的reques请求,服务器就会自动返回页面的代码,对于获得的html数据处理可以使用beautifulsoup或者使用正则表达式,感觉都还行吧!下面这个是使用正则表达式提取超链接的.超链接的格式<a href="url"> ...... </a>.中间的内容我就使用了通配符匹配除换行之外的任何字符. 注意使用正则表达式的时候不要有空格
至于request的其他功能现在也用不上,先暂时这样吧,正则表达式的可以参照上一篇文章,下面写一个使用beautifulsoup处理html代码的.旨在说明有那么个东西.
select的参数:
select("div") 查找名为div标记
soup.select('#author') 带有id 属性为author 的元素
soup.select('.notice') 所有使用CSS class 属性名为notice 的元素
soup.select('div span') 所有在<div>元素之内的<span>元素
soup.select('div > span') 所有直接在<div>元素之内的<span>元素,中间没有其他元素
soup.select('input[name]') 所有名为<input>,并有一个name 属性,其值无所谓的元素
soup.select('input[type="button"]') 所有名为<input>,并有一个type 属性,其值为button 的元素