Hawk教程- 子任务引擎

子任务引擎

(早期版本的Hawk称之为子流程,为了简化概念,使用子任务这一说法,下同)

1.基本概念

当流程设计的越来越复杂,越来越长时,就难以进行管理了。因此,采用模块化的设计才会更加合理。本节我们介绍子任务的原理和使用。

子任务是Hawk中高级但却非常重要的功能,可以实现例如多级跳转,采集详情页等等的功能,非常强大。

所谓子任务,就是能先构造出一个任务,然后被其他任务调用。被调用的任务就是子任务。我们应该能够了解子任务其实就是函数,可以定义输入列和输出列,把整个子任务看成一个模块,从而方便重用。

子任务的功能包含以下三类:

  • 子任务-生成,作为生成器,一般在主任务的开头位置,行为和生成器一致。- 如生成全国城市列表的流,生成某个网站全部分类的流
  • 子任务-转换: 可看成转换器,通常位于任务中间位置 ,例如通过输入url地址,就能转换出该页面中所有需要信息的流
  • 子任务-执行: 作为执行器,一般位于末尾。 例如可以构造获取某个页面所有图片的执行流

为什么不包括子任务-过滤?因为过滤操作通常比较简单,不需要子任务实现。

2.参数设置

子任务配置

子任务可以分为两部分:参数部分和执行部分。在本文最下面的例中,子任务中的第一个从文本生成,只是参数,目的是为了子任务设计器能构成输出数据的完整流程。但要想被别的模块调用,则只应该有执行部分。而参数部分,需要主任务传递给子任务。这就是调用范围的意义,它能将主任务的指定参数传递到子任务上,成为子任务的一部分。

举例子,如果一个长度为20个模块的子任务,前两个模块为参数部分,后18个是执行部分,因此调用范围可以写2:18(从0开始)。 当然为了方便,你可以给冒号后第二个数比较大的值,如100。范围的第二个数也可以写成负数,如2:-2表示从第二个模块到倒数第2个模块

那么,如果主任务传递的列名,和子任务需要的列名不同时,该怎么处理? 这就需要属性映射机制。配置子任务的属性映射时,可以用a:b c:d表示主任务的a列映射到子任务的b列,多个映射用空格分割,以此类推。

若不需要映射,则直接填写a c表示要将a列和c列传递给子任务,因为主任务不会也不需要将所有的参数都传递给子任务。因此,需要在子任务的转换器上,显式地设置原列名,并用空格分割。

此处顺便总结一下Hawk中对配置的约定,帮助大家复习:

  • 具体数值,直接填入配置框即可
  • 涉及到输入多个列名,多个分隔符等,都默认用空格分割,例如a b c
  • 当希望从本数据清洗中读取其他列的数据到本参数,使用方括号表达式,例如[col]
  • 当希望从全局配置中读取特定字段时,使用大括号表达式,例如{YOUR_CONFIG}
  • 希望将多个列的数据合并作为参数时,可先使用合并多列,再使用对应的表达式
  • 配置子任务的模块范围时:1:100表示从1到100, 2:-2表示从第2个模块到倒数第二个模块,可参考Python的slice写法
  • 配置子任务的字段映射时,可以用a:b c:d表示a列映射到b列,以此类推。

Hawk3中还提供了图形化配置的界面,大大简化了配置难度,在任何子任务调用的模块里,都可以点击配置进入配置页面:

子任务的配置界面

3.注意事项

下面是一些注意事项:

  • 主任务不会将所有的参数都传递给子任务,因为这可能并没有必要。因此,需要在子任务的转换器上,显式地设置原列名,并用空格分割,这样才能传递过去。
  • 子任务还可以调用其他的子任务,形成树状的调用结构。当加载一个任务时,该任务依赖的子任务也会自动加载。对子任务的修改,也会传递到主任务上。目前,任务之间还不能自调用,也不能形成调用环。虽然函数确实是可以递归调用的,但对一个以generator为核心的流系统,递归可能并不需要。但如果真的支持,那一定会相当强大。
  • 其实,在子任务层面,转换和执行除了是否有副作用外,最大的区别在于对主任务的影响,子任务-转换会将所有的结果返回给主任务,但子任务-执行则只需要输入参数,之后就是无头僵尸,将数据写到其他位置后,并不会影响主任务,在主任务中也看不到任何效果。这一段有些难以理解,但确实非常重要.

4.示例

在教学工程中,可以看到多个调用子任务的示例。

下面以一个非常简单的任务来阐述子任务的用法:

新建一个数据清洗,命名为主任务,生成1-20的区间数,列名为id.

接下来,我们希望能生成id2和id3两个列,数值分别为id的两倍和三倍,再把它们拼接起来。你可以直接拖入两个python转换器到id, 脚本为int(value)*2int(value)*3,最后再拖入一个合并多列,格式为{0}_{1},再删掉刚才生成的三个列,这样就生成了下面的列:

2_3
4_6
6_9
...

但是,如果不仅有id这一列,还有别的列需要做一样的处理,那就需要做重复的操作了。我们完全可以将其封装起来重复使用。

新建一个数据清洗,命名为子任务,新建从文本生成,列名为id, 内容只要一个1就可以了,之后按照刚才的步骤,生成2_3这样的列。

之后,在主任务上,对id列拖入子任务-转换,在弹出的面板上,子任务-选择中填入子任务调用范围填入1:100, 刷新后,即可看到和之前相同的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,183评论 0 9
  • 1. 简介 1.1 什么是 MyBatis ? MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的...
    笨鸟慢飞阅读 5,429评论 0 4
  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 3,815评论 0 5
  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,089评论 1 32
  • 大多数 Nginx 新手都会频繁遇到这样一个困惑,那就是当同一个location配置块使用了多个 Nginx 模块...
    SkTj阅读 7,584评论 0 12