被称为“国产最强”,科大讯飞的星火AI大模型有点东西

出品 | 微果酱(wjam123456)

作者 | 陈出木

[在此前测评百度文心一言的文章评论区](http://mp.weixin.qq.com/s?__biz=MzkzMTMyNTYxNA==&mid=2247589349&idx=1&sn=bd4b770445cae97d489cb9b8df45871e&chksm=c26f6e24f518e7327ecc82a4e574d90087bcdce2b162289537039c4d6d9f865172fc8e2890a5&scene=21#wechat_redirect),有小伙伴表示,星火的“使用效果不错”。

星火是[科大讯飞](https://www.growthhk.cn/tag/%e7%a7%91%e5%a4%a7%e8%ae%af%e9%a3%9e ""科大讯飞"")经过5个月时间研发出来的大模型,在5月6日的发布会上正式面世。**在国产大模型中,星火算不上首发玩家,科大讯飞的知名度也没有其他大厂们高,却少见敢公开对标[ChatGPT](https://www.growthhk.cn/tag/chatgpt ""ChatGPT"")的。**

果酱妹这不就给大家火速安排了一期实测,看看相比名声在外的ChatGPT和文心一言,星火到底好不好使。

01#

**如何正确打开星火?**

**打开星火的官网(https://xinghuo.xfyun.cn/),登录并点击“申请注册”,等待官方审核通过即可体验。**

有一说一,相比文心一言的部分内测申请能卡上一个月,普遍反馈星火的审核速度很快,果酱妹在注册申请后一个半小时就通过了审核。

进入星火的界面,对话框和其他模型相差无几。

对比连色调都有些类似的文心一言,星火的左边栏有**“纯净”和“沉浸”两种模式**,可以将界面主题色调整为蓝色和黑色。但仅能调色的功能和能通过修改模式调整回答风格的Bing相比,似乎落于下风。

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-9.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

在星火的右边栏还有四个导航按钮,包括使用指南、意见反馈、指令推荐和直播回看四个功能。其中,**点击“指令推荐”,可以看到星火根据行业和应用场景不同,准备了常用的指令集合,可以降低用户通过[AI](https://www.growthhk.cn/tag/ai ""AI"")对话来获取想要答案的门槛。**

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-10.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

如果用户找到合适的指令,可以直接点击**“执行”**跳转提问对话。不过,果酱妹在使用过程中,发现只有前面第一行的指令能够如此操作,下方标注了“编辑执行”的指令,则需要复制并人工切换页面进行操作。

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-11.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

此外,星火也和文心一言一样提供了**模板功能**,在对话框输入“/”即可选择相应问题模板,就模板数量而言,星火略胜一筹。

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-12.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

02#

**星火会是国内版ChatGPT吗?**

在星火的发布会上,官方自信表示,

> **中文领域已在文本生成、知识问答、数学能力3个维度超越ChatGPT,并将于10月24日在中文上超越ChatGPT,在英文上达到跟它相当的水平。**

那么,星火到底能不能行?

**1、文本生成**

对于新媒体人来说,文本生成功能是一个重要辅助。所以,果酱妹选择把今天的选题交给星火试试手。

尽管提问中出现了错别字,但并不妨碍星火识别问题并作答,**生成的文章基本通顺,连接词、过渡句也都不缺,甚至兼顾了“风格生动有趣”的需求。**

果酱妹又对这篇文章提出了细化的需求,但星火生成的是一篇步骤完善的报告,需要再次引导才能转化成文章。

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-13.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

**而和其他AI大模型一样,星火也难以与时俱进,对网络热点或热梗都不能很好地理解并响应。**比如面对分析最近走红的“挖呀挖”“泰裤辣”等热点事件,星火的回答可谓无中生有,除了结构,通篇离题。(用AI来追热点的梦碎了)

![](https://www.growthhk.cn/wp-content/uploads/2023/05/640-14.gif)

![](https://www.growthhk.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)

果酱妹还测试了星火的短篇文案生成能力。**就朋友圈文案和[小红书](https://www.growthhk.cn/mcn/xiaohongshu ""小红书"")文案的生成情况来说,需要有更强个人主观色彩的朋友圈文案表现并不能让人满意,而商业化更重些的小红书文案则相对良好。**但对于做客服或运营的小伙伴来说,星火还是能胜任“小助理”的角色的。

**短视频脚本**也能生成,但仍需要人工进行引导、调整、润色。

**而到“藏头诗”环节,星火就失灵了。**无论果酱妹如何更换藏头的关键词,星火一意孤行,坚持不按照传统的藏头诗形式作答。或许是因为星火并未接受过这方面的训练,其并不能正确理解“藏头诗”的意思。

当果酱妹指出星火的错误之后,AI认错但胡说八道的本能再次出现。显然,在传统文化方面,文心一言还是领先了一些距离的。

除了作文,星火在**生成邮件**方面的表现大致及格,会根据收件人是好朋友还是老板,转变邮件的措辞风格。但相对来说,星火更擅长工作类型的邮件,而涉及情感因素的邮件仍然比较生硬。

可以说,**星火在文本生成方面的能力是能超过及格线的,对问题及提问意图都能够做出相对正确的理解判断,并生成基本合格的答案。但星火也有AI的通病,无法处理主观性太强的内容,及训练不充分的传统文化内容。**

**2、知识问答**

果酱妹首先向星火提问了曾经难住文心一言的脑筋急转弯——能否把大象放进冰箱。星火理解了问题的本质并轻松解决,答案和Bing类似。

但除了这种非常经典的问题,**星火并不能够回答出相对少见的脑筋急转弯问题,即便这些问题对于人类小朋友来说并不难。**

**此外,星火在音乐方面暴露了短板。**面对果酱妹提出的找歌和介绍乐队的需求,星火出现了编造答案的的情况。且不论问题,其给出的答案中,事实错误包括歌曲《妈妈的吻》并非由李玟演唱,The Traveling Band这支乐队和乐手在百度暂时查无此人等。

当然,如果回归到相对常规的问题,星火还是能够做好的,诸如腰疼的原因和应对、用PPT制作动画的步骤等生活工作类型的问题。

**可见,星火或许还是太年轻了,接受的训练和数据库的广度都存在不足,导致其在知识问答方面有巨大短板。**就这方面而言,具备搜索引擎业务的百度文心一言和微软Bing显然有更大的优势。

**3、数学能力**

鉴于此前在文心一言和Bing上都因为数学碰过壁,果酱妹对于星火的数学能力其实并没有抱非常大的期待。结果也不出预料地翻车了,**前两者没有解决的问题,星火也没能做出来。**

但如果换成《孙子算经》上记录的鸡兔同笼问题,星火又可以了。

甚至包括鸡兔同笼问题的变式,星火也能够解出正确答案。

**经过几次测试,星火的数学能力大约相当于小学生水平,初中及以上的题目基本都以失败告终。**(问AI还不如问更专业的XX搜题)

03#

**写在最后**

近日发布的中文通用大模型综合性评测基准SuperCLUE,其评测与排名的结果显示,国产大模型中,科大讯飞研发的[星火认知大模型](https://www.growthhk.cn/tag/%e6%98%9f%e7%81%ab%e8%ae%a4%e7%9f%a5%e5%a4%a7%e6%a8%a1%e5%9e%8b ""星火认知大模型"")总排名第三,国内排名第一。

单看图表,星火和文心一言差距极大。但一番测试下来,我们不难发现,AI的优势和毛病,星火其实一个不落。

在交互方面,星火更类似于ChatGPT,不像文心一言那么生硬,脾气也更好一点。而回归业务能力,星火和文心一言其实差不多,日常的都能做,但难度一加码就翻车,热点热梗跟不上,并且都是数学不好的偏科生。

**当然,文心一言还年轻,星火更是在初生期,我们需要给国产大模型更多的耐心和时间。仅就当前阶段来说,它们已经能够在生活工作中发挥一定的辅助作用,至于如何扬长避短,就是人类需要做的事情了。**

这也意味着,AI工具普及已经在潜移默化中开始了,我们不应该成为最后知道的那一批人。

松果号 作者:松果号原创文章,如若转载,请注明出处:https://www.6480i.com/archives/106454.html

(0)
松果号松果号
上一篇 2小时前
下一篇 2小时前

推荐阅读

发表回复

登录后才能评论