本文章是基于linux的debian操作系统来进行安装和使用的。
gsutil 的安装
gsutil 的安装方式多样,可以通过url来进行安装,或者通过压缩包来安装,还有一种非常好用的方式就是通过python包索引(pypi)来进行安装。
它的优点在于:
(1)安装简单,且不容易出错。其他的安装方
(2)如果你只是想访问和下载公共的数据源,就不需要绑定google账号或者什么密钥
(3)如果您不想要 gcloud CLI 附带的任何其他组件,或者您正在使用 PyPI 管理包,您可能更喜欢其中一种方法。(官网原话)
接下来进入清晰明了的安装教程,该过程与官网的略有不同:
- 使用以下命令更新 apt 数据库。
sudo apt-get update
- 更新 apt 数据库后,通过apt-get运行以下命令安装gsutil:
sudo apt-get -y install gsutil
gsutil 的基本使用方法
跟普通的linux command 一样
- 访问和浏览(ls)
gsutil ls gs://myworkspace/dataset/pdf/
- 下载到本地(通过cp复制)
(1)下载单个文件
# cp 是复制
gsutil cp gs://myworkspace/dataset/pdf/test.txt
(2)递归下载文件夹
gsutil cp -r gs://myworkspace/dataset/pdf/
(3)多线程下载文件夹
gsutil -m cp -r gs://myworkspace/dataset/pdf/
以上方法都适用于公开的开放数据源,对于其他数据源都需要进行密钥验证等操作,由于国内网络原因,一般都无法进行google的验证。
参考链接
[1] https://cloud.google.com/storage/docs/gsutil_install
[2] https://installati.one/debian/11/gsutil/