重磅!阿里版本【ChatGPT】开放测评!

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了!

在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸引了大众的目光。

如今,这款“原版大作”正式亮相,自然引起了广泛关注,引爆了舆论热议。

官方保持低调,表示目前该模型主要面向企业用户邀请试用。

然而,内行人都明白,国内科技领域已经如火如荼。实力派参与者加入战局,大型模型间的激烈竞争,已经拉开序幕!

今天看到一位网友体验了通义千问的效果,并对比了ChatGPT和GPT4的效果,总体看来效果接近ChatGPT,但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

图片
图片

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。

就角色扮演这块儿,比起来 ChatGPT 还是差些的。

文本真实性

图片
图片

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」:

图片

GPT-3.5:

图片

GPT-4:

图片

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。

但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

图片

ChatGPT

图片

GPT-4

图片

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」:惨败

图片

GPT-3.5(即ChatGPT ):惨败

图片

GPT-4:唯一做对的模型

图片

代码生成

爬虫代码

图片

攻击代码

图片

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。

不过可以看出,还是有一定代码生成能力的。

我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。

代码分析能力

可以看到,第一次测试的解释有大问题。

我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

图片

我重新开了一个聊天,这下正常不少。

图片

和 GPT-4 的回答来比较一下

图片

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。

联网

完全没有联网能力,甚至在胡说(逃……)

图片

多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

图片

绕过能力

「通义千问」

图片

GPT-4

图片

GPT-3.5(即ChatGPT )

图片

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大

感想

最近先是百度推出文心一言,紧随其后的是阿里巴巴的通义千问,国内AI产品接连问世,确实让人欣喜不已。

对ChatGPT有所了解的朋友们应当知晓,在本周,各个ChatGPT和AI相关群组里都在传播一个消息:ChatGPT官方大规模封禁账号,今天登陆GPT时请勿使用亚洲节点!

没过多久,许多人开始发现自己的账号遭到了封锁:

实际上,这并非ChatGPT首次针对中国用户实施限制,早在一个月前,ChatGPT已经在对中国用户实行各种限制和封禁措施。

当然,今天的封禁规模相较于之前有所升级,甚至我在知乎上看到有些日本和东南亚的用户也在谈论自己的账号被封禁。

很多人可能会好奇为什么会这样?包括我的ChatGPT星球上也有会员在提问。原因很简单:ChatGPT确实能够大幅提升生产力,如果运用得当,提升幅度甚至能达到数倍。

美国与中国目前的关系众所周知,限制我们使用ChatGPT就是为了打击竞争对手、抢占发展先机、取得“胜利”,这与禁止芯片出口法案是一样的道理。

ChatGPT如今已经火爆,国内亟需拥有足够竞争力的国产生成式大模型!

在这个时候,自主研发技术的价值就愈发凸显!或许我们目前还存在一些不足,但幸运的是,这次我们的起跑线并没有相差太远。

百度的文心一言,阿里的通义千问,我相信中国很快还会涌现出更多类似ChatGPT的大型模型,我对我们的研发工程师充满信心,他们的进步速度必定不会慢!

那么对于我们这些普通人来说,我们应该做些什么呢?

我的建议是:尽快了解AI,甚至投身AI领域。只有这样,我们才能在未来的社会竞争中立足,而不被淘汰。

未来社会将分为两类人:一类是会运用AI的人,甚至会用AI作为创新工具的人;另一类是对AI无知或抵触的人。

而前者的生产力,至少是后者的10倍。

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容