OpenChat

· 标题：OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
· 链接： https://arxiv.org/abs/2309.11235
· 代码： https://github.com/imoneoi/openchat
· 模型： https://huggingface.co/openchat
· 演示： https://openchat.team/zh

Motivation

目前的SFT和RLHF方法都忽略了训练数据的质量，或是需要昂贵的人工标注
探索一个新的可能的微调方案，让开源的LLMs可以使用简单的混合数据（高质量混合中等质量）提升效果（而非定制化的偏好数据）
所谓混合数据，就是把GPT3.5（中等质量）和GPT4（高质量）的数据混合在一起。

ShareGPT dataset，3.5和4的数据分别采样128个对话，使用GPT4来打分

Contribution

提供了一个小数据集，包含高质量对话数据，和一个大数据集，包含次优的对话数据。且并不是偏好数据
提出了一个新的嗯OpenChat framwork来平衡混合质量数据：Class Conditioned-RLFT(C-RLFT)

Conditioned-RLFT

Key Idea

定义了 class-conditioned dataset and reward，使用来自GPT3.5和4的两个公开数据集，手工定义很粗糙的reward（coarse-grained reward）： $\alpha < 1$
通过C(onditioned)-RLFT来做微调，主要包括两个关键因素：

（1）用明显的prompt tokens来区别不同的训练样本。

（2）为了弥补coarse-grained reward的缺陷，跟OfflineRL那样用KKT条件推导了带KL限制的最大化reward的优化方式，把一个带限制的最大化目标问题，一个简单的奖励加权回归目标问题。

本质上还是考虑到①目前开源的LLMs性能甚至比次优数据GPT3.5还要差，②（1）中的数据构造方式能帮助模型区别高质量回答和低质量回答

Experiment $ Analysis

效果1：在AlpacaEval，MT-bench上表现达到了13b模型的巅峰，Vicuna-bench上仅次于llama2-chat，openchat-13b是基于llama2基座微调的。相比较大于13b的模型也毫不逊色。

Table 1
效果2：单独拉出来MT-bench上的表现，openchat-13甚至比llama-2-70b都要强，比好几个大于13b的模型都强。另外单独分析AGIEval的acc，可以看到虽然openchat-13b在Vicuna-bench上次于llama2-chat，但llama2-chat还是有比较大的能力不均衡问题的，不如openchat-13b的能力全面

Fig 2
消融实验：如果without coarse-grained reward的设定，把所有数据都当做同等reward来训练，可以看到性能都有所下降；如果without condition的Prompt提示，无法分别那种回答来自低质量数据，也会损害性能。另外也分别在全量数据集、3.5、4的这3个数据集上分别SFT，效果都不如论文的方案。

image.png
经过C-RLFT之后的模型对于GPT4和GPT3.5的数据更能区别：
即便GPT4的数据量占比比较少，但GPT4数据（高质量）量的大小更加影响最终效果。
测试了不同的Prompt类型，在assistant前面增加标识的性能更好。

参考

https://air.tsinghua.edu.cn/info/1007/2174.htm

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

OpenChat

Motivation

Contribution

Key Idea

Experiment $ Analysis

参考

推荐阅读更多精彩内容