periodic task,即为周期,或者定时任务,比如说每天晚上零点零分需要运行一遍某个函数,或者每隔半小时运行一遍该函数,都是这种任务的范畴。
在第一篇笔记的时候我们就介绍过 celery 的组件构成,其中有一个组件叫做 beat,就是我们定时任务的调度器。
所有的定时任务都由 beat 发出,这种情况下,你必须确保在同一个时间点只有一个 beat 任务调度器在运行,假设有两个 beat 同时在运行,那么在检测定时任务的时候,系统的任务就可能会被重复发起、调用、执行。
- beat_schedule 定义
- beat 启动
- crontab介绍
1、beat_schedule 定义
我们来定义两个定时任务,一个是 blog.tasks.add,定义为每隔 30s 执行一次,现在晚上11点45分,我们定义每天11点50分执行一次。
在进行这些操作前,我们还需要对时区有一些设置,因为我们设置的晚上11点是北京时间,而 Django 和 celery 默认是格林威治时间。
时区设置
我们使用 Django 系统,一些配置在 settigns.py 中定义,详情可以见前几篇笔记的 celery 与 Django 系统使用。
关于时区,Django 系统和 celery 的时区我们都设置成北京时间:
# settings.py
# django 时区设置
TIME_ZONE = "Asia/Shanghai"
USE_TZ = False
# celery 时区设置
CELERY_TIMEZONE = "Asia/Shanghai"
CELERY_ENABLE_UTC = False
DJANGO_CELERY_BEAT_TZ_AWARE = False
定时任务定义
接下来,我们定义定时任务:
from celery.schedules import crontab
app.conf.beat_schedule = {
'add-every-30-seconds': {
'task': 'blog.tasks.add',
'schedule': 30,
'args': (16, 16),
},
'schedule_test_add': {
'task': 'blog.tasks.minus',
'schedule': crontab(minute="50", hour="23"),
},
}
定时任务的定义是我们通过 app.conf.beat_schedule 来操作,一个任务我们定义一个 name 作为 key
在每个 task 下,分别有以下选项:
task:指向我们定义的任务,比如我们这个是指向 blog application 下 tasks.add 任务
schedule:定时任务的策略,如果直接定义一个整数,比如定义的 add-every-30-seconds task 的这个参数定义为 30,就会每隔30s 执行一次
而如果使用 crontab() 函数,则可以更自由的定义到每个月,每周,每天,每时每秒,在示例中我们定义 minute="50", hour="23" 表示每天 23点50分执行一次
更详细的策略我们下面再详细介绍。
args:定时任务的参数,比如 add() 函数,我们每隔 30s 执行一次,给定的两个参数是 (16, 16),对应 add(x, y) 输入的两个值
2、beat 启动
beat 的启动方式和 worker 启动方式一致,将 worker 改成 beat 即可:
celery -A hunter beat -l INFO
也可以指定日志的输出文件:
celery -A hunter beat -l INFO --logfile=/Users/hunter/python/celery_log/beat.log
当我们启动 beat 的时候,会发现启动的文件夹下会有一个名为 celerybeat-schedule.db 的文件,这个是 beat 保存在本地的上一次任务运行的时间的数据,我们也可以指定该文件的输出地址:
celery -A hunter beat -l INFO -s /Users/hunter/python/celery_log/celerybeat-schedule
如果我们需要运行定时任务,我们需要额外启动两个服务,一个是 beat,一个是 worker
一般来说我们会先启动 worker,再启动 beat,这样 beat 有一些立即发出的任务就可以直接被 worker 接收然后运行。
3、crontab介绍
我们使用 crontab() 函数制定定时任务的时间策略,比如每天运行一次,或者指定周几运行都可以实现。
如果你之前接触过 Linux 服务器上的 crontab 服务,那么就不用担心理解它的使用方式,如果没有,我们可以看看下面官方文档对着的介绍。
在 celery 里,crontab 函数通过 from celery.schedules import crontab 引入,在 beat_schedule 的定义里作为 schedule 的值,这个前面给过一个示例。
crontab 接受五个参数:
- minute 表示分钟,接收整数或者整数列表,范围在0-59,或者字符串表示配置的时间模式
- hour 表示小时,接收整数或者整数列表,范围在0-23,或者接收字符串表示配置的时间模式
- day_of_week 表示周几,接收整数或者整数列表,范围在0-6,其中周日是0,周六是6,或者接收字符串表示配置的时间模式
- day_of_month 表示一个月的第几天,接收整数或者整数列表,范围在1-31,或者接收字符串表示配置的时间模式
- month_of_year 表示一年的第几个月,接收整数或者整数列表,范围在1-12,或者接收字符串表示配置的时间模式
minute 和 hour
minute 和 hour 直接指向一天的某个时间点,所以,这两个参数相当于是必填,除非是某些特殊的情况,比如默认的每分钟执行一次:
crontab()
上面的命令,什么参数也不传,表示的是每隔一分钟执行一次
如果我们想指定特定的时间点,比如每天晚上11点23分执行一次:
crontab(minute=23, hour=23)
如果我们想指定某一些分钟,比如分别在 23点11分,23点25分,23点44分钟分别执行一次,可以如下操作:
crontab(minute="11,25,44", hour=23)
如果是上面这种没有特殊关系的时间点,我们可以这样通过逗号分隔连接起来,如果是有特殊关系的,比如说,每隔一分钟,或者每隔三分钟,我们可以通过 */n
的方式来连接。
23点之内,每隔三分钟执行一次函数可以如下操作:
crontab(minute="*/3", hour=23)
这里的每隔 n 分钟,其实是 n 的倍数,比如说 */3
就是在 0,3,6,9,12... 等这些分钟数上执行。
还有一种是范围内的操作方式,比如说,23点的 10-20分钟内每分钟执行一次:
crontab(minute="10-20", hour=23)
那么上面的方式合并起来可不可以,比如说在23点的第5分钟,11分钟,51分钟,31-40分钟,并且每隔两分钟执行一次
也可以实现,把上面的方式都添加在一起,就是一个或的操作:
crontab(minute="5,11,51,10-20,*/2", hour=23)
对于分钟的这些操作,对于小时数是同样生效的,不过范围在 0-23 之间,比如说指定0点,5点,8点,16点的零分执行一次,那就是:
crontab(minute=0, hour="0,5,8,16")
如果是每个小时执行一次呢,就是:
crontab(minute=0, hour="*/1")
# 当 n = 1 的时候 1可以省略,即为
crontab(minute=0, hour="*")
hour 的范围参数和指定的小时点,像 minute 参数一样,也是可以或操作功能那样生效的。
day_of_week
day_of_week 参数表示周几,当我们使用这个参数的时候,minute 和 hour 参数是同样生效的,这里我们只演示 day_of_week 参数的作用,小时和分钟我们都定为 0点0分。
当我们不指定这个参数的时候,即为每天,只有指定了这个参数的时候,定义的周几才会生效,比如我们定义在周一,周三,周五三天的零点执行一次:
crontab(minute=0, hour=0, day_of_week="1,3,5")
这里,周日是0,周一是1,周二是2,依次类推。
day_of_week 的参数还可以使用英文的简写,这里不做介绍,因为我个人认为还是直接使用数字方便一点。
另一个需要注意的是,day_of_week 也可以使用 */n
的形式,但是周几总共只有7个,所以我这里推荐直接用数字写出来。
day_of_month
表示一个月的第几天,范围是1-31。
其使用方法和 minute、hour 使用的方式是一致的,使用范围和 */n
的形式都可以实现。
比如我们想实现在1号,5号,7号,8号,以及每个偶数日的零点零分执行一次,可以这样操作:
crontab(minute=0, hour=0, day_of_month="1,5,7,8,*/2")
month_of_year
表示一年的某几个月,范围是1-12。
和前面的使用方式一致,如果需要使用,只有12个数字,还是推荐直接定义。