记得在校的时候,某岩做过一个app,讲接龙故事的。类似于我写一段,另一个人写接下来的一段,最后凑成一个完整的故事。当时,可产生了不少有意思的段子。最近,GPT2 模型的发布,让人不禁想到,有没有可能让机器来完成这个任务呢?机器写十四行诗、机器写莎士比亚风格的文章,机器写对联,这些都已经成为了现实。人工智能虽然没有带来突飞猛进的质变,但着实催生了很多有意思的小玩意儿。对于GPT2,一个字概括来说就是:壕——数据量大,算力能够 cover 住。这套算法模型网罗了几乎现有的所有文本数据,成功“过拟合“地屠榜,刷新多个 NLP 任务榜单排行。作者为了预防滥用模型、同时让别的研究者能够有个初步地认识,开源了一个小一些地模型。该模型的能力之一,就是我们今天的主题:接着别人地话写故事。今天我们要通过算法来实现。
虽然作者有在尽力简化复现难度,但对于很多不是这行的人,让他去敲命令行来走完整个流程,还是困难重重。能够将深奥的原理讲给普通人听,并且简单易懂,是一项科学传播的必备能力。做为技术向的工程师,在产品处于雏形阶段时,能够通过一个 MVP 最小价值产品,实现核心功能,也是一项大大的加分项。对于今天的任务,我们选取容易上手,接口丰富的 slack 作为我们的前端交互窗口。
如何构建一个 MVP 产品;或者具体的来讲,在我们的这个任务中,如何将数据挖掘工程师的模型成果,转化为可落地、可感知的产品或服务呢。操起斧子直接开干,依葫芦画瓢撸个前后端出来吗?这,其实是很多技术人员的一个误区——认为什么都可以从技术层面解决,”少废话别bb,bb is cheap,show me the code“。但从一个商业产品或服务商的角度来看,客户与渠道是前台,我们的客户是谁、如何触达客户以及选用何种渠道维系客户,是一个一开始就要考虑的事情。
以这个 GPT2 bot 为例,我希望的客户是对 GPT感兴趣,但又没基础去折腾的学生或是其他领域的人士,抑或是没时间去跑 demo 的专业同行。如何触达客户:你看的这篇文章的平台,就是我的触达媒介。我最后选择用 slack 交付我的服务,而不是 qq 或 微信,是因为他成本更低,虽然阻挡了部分潜在客户,但权衡后是可以接受的。最后的工作才是依葫芦画瓢,照撸一个出来。本文参照了EdwardHuCS,并在其基础上做了部分改动。
虽然这波 AI 热潮,让很多像我这样的非科班得以上车。但在实际生产环境中,我们还是暴露了诸多问题。其中之一,便是工程能力薄弱。会写 SQL 、会手推算法、会调包,但是就是不会写能跑的整个小系统。在业务变化快的公司中,这可能不是一个好事情。你的模型也许还在细调参数,但突然整个业务就没了。如果你能拿出一个能跑的马儿,兴许能影响这个业务。这就是前面提到的加分项。
言归正传,我们回到在slack上面。我们的核心就以下代码:
核心代码解读
导入一些基础配置
import os
import time
import re
from slackclient import SlackClient
import sys
from gpt2.src import generate_unconditional_samples
# instantiate Slackk client
slack_client = SlackClient('') # 认证口令
# starterbot's user ID in Slack: value is ssigned after the bot starts up
starterbot_id = None
延迟配置以及样例和匹配模式
# constants
RTM_READ_DELAY = 1 # 1 second delay between reading from RTM
EXAMPLE_COMMAND = "God, to me, is like a "
MENTION_REGEX = "^<@(|[WU].+?)>(.*)"
通过 slack 的事件,解析出我们的消息和对应的频道
def parse_bot_commands(slack_events):
"""
Parses a list of events coming from the Slack RTM API to find bot commands.
If a bot command is found, this function returns a tuple of command and channel.
If its not found, then this function returns None, None.
"""
for event in slack_events:
if event["type"] == "message" and not "subtype" in event:
user_id, message = parse_direct_mention(event["text"])
if user_id == starterbot_id:
return message, event["channel"]
return None, None
消息解析
def parse_direct_mention(message_text):
"""
Finds a direct mention (a mention that is at the beginning) in message text
and returns the user ID which was mentioned. If there is no direct mention, returns None
"""
matches = re.search(MENTION_REGEX, message_text)
# the first group contains the username, the second group contains the remaining message
return (matches.group(1), matches.group(2).strip()) if matches else (None, None)
核心的模型导入
def handle_command(command, channel):
"""
Executes bot command if the command is known
"""
# Default response is help text for the user
response = "Not sure what you mean. Try *{}*.".format(EXAMPLE_COMMAND)
# This is where you start to implement more commands!
if len(command) < 2:
response = "Sure...write some more text then I can do that!"
else:
# 这里可以替换成任何你想要的模型
response = '"'+command+generate_unconditional_samples.sample_model(nsamples=1, length=6*len(command), top_k=len(command), command=command)[0]
# Sends the response back to the channel
slack_client.api_call(
"chat.postMessage",
channel=channel,
text=response)
主函数入口
if __name__ == "__main__":
if slack_client.rtm_connect(with_team_state=False):
print("Starter Bot connected and running!")
# Read bot's user ID by calling Web API method `auth.test`
starterbot_id = slack_client.api_call("auth.test")["user_id"]
while True:
command, channel = parse_bot_commands(slack_client.rtm_read())
if command:
handle_command(command, channel)
time.sleep(RTM_READ_DELAY)
else:
print("Connection failed. Exception traceback printed above.")
开始安装并运行
git clone git@github.com:kuhung/slack-gpt2.git
cd slack-gpt2
获取 slack app 的 token,并填充进上面的 slack_client
conda create -n slackbot python=3.6
source activate slackbot
pip install -r requirements.txt
cd gpt2
pip install -r requirements.txt
python download_model.py 117M
cd ..
python starterbot.py
如果你不熟悉或从来没用过slack,也没关系,还记得开头说的交付吗?直接加入我的 workspace,一起测评 GPT2 bot。链接:加入我的 slack workspace
总结
如同大多数应用场景一样,数据挖掘的算法需要落地,最好的办法就是封装成一个接口,给到前后端去调用。这其中还有很多性能优化的东西,但作为一个 sideproject,以上操作足够让你给别人眼前一亮的感觉。