6 月 7 日消息,2023 年全国高考正式拉开大幕,全国有 1291 万考生奔赴考场,报考人数再创历史新高。
高考作文题历年来都是最受瞩目的热点,今天,就用高考作文题来检验一下各家大模型的真实水平,是骡子是马出来溜溜。
这里选择“ChatGPT、微软 Bing、文心一言、通义千问、昆仑万维「天工」、钉钉斜杠「/」、360智脑、讯飞星火” 8 款代表性产品检测大模型能力。测试标准统一,输入全国卷甲卷高考题目全文,对比各大模型产品首次生成的内容。
(资料图片仅供参考)
全国卷全国甲卷作文土木要求如下——
阅读下面的材料,根据要求写作。(60分)
人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。
这句话引发了你怎样的联想与思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
真金不怕火炼,一起看看各家大模型表现。
ChatGPT
题目《科技的发展:让人们更好地掌控时间还是失去掌控能力?》
评价:字数 702 字,表现中庸,乏善可陈。
微软 New Bing
题目:《技术的发展:掌控时间与成为时间的奴隶》
评价:字数702 字,不及作文硬性要求,产出结果为“回答”样式,并非结构完整的“作文”。优点在于上下文、上下句逻辑尚算的上连贯。
百度「文心一言」
题目《技术的双面性:时间的掌控与自由的丧失》
评价:997 字字数达标,对比下来属于表现优秀的了,一次提示直接给出题目和文章主干,结构整齐,有引用名言加分。缺点方面,各位请看文章倒数第一、二自然段,“最后”和“总得来说”章节中,车轱辘话反复说,有拼凑感。
阿里「通义千问」
题目《把握时间的“度”》
评价:字数 551 字恐会扣分,文章题目需要二次问询才能生成。
钉钉斜杠「/」
题目《技术的双刃剑:掌控时间,还是被时间支配?》
评价:918 字,在逻辑上和措辞上表现不俗,“议论文”特质拉满,进行了反思并给出措施。也存在车轱辘话反复说的问题。
昆仑万维「天工」
题目《掌控时间,而不是被时间控制:如何在科技时代保持自主性和掌控力》
评价:585 字恐被扣分,文章题目奇怪,且需要追问题目是什么,理解题意的能力有限。
科大讯飞「讯飞星火」
题目《时间的掌控与仆人》
评价:820 字,在逻辑上和措辞上挺好,还会“结合自身经历”,举例“我有一个程序员朋友”。
360 智脑
题目《技术发展与时间管理》
评价:821 字,需要追问方给出题目,表现中规中矩。
Closing Thoughts
以上,就是八款主流 AI 工具生成的高考作文。
整体上,细读以上文章不难发现,写的不咋地都。。(摊手)
各家大模型产出内容普遍逻辑结构混乱,论据不充分,上下文衔接是生硬,名言引用并不那么贴切,这种文章在高考赛场上是拿不到高分的。要是加个查重率,不得全军覆没。
但是,大模型产出内容胜在产量高,速度快,几秒钟就好了,随着迭代内容质量会被优化。
具体来说,从文章结构上来看文心一言更胜一筹,层次清楚分明;讯飞星火和钉钉在逻辑上和措辞上挺好,讯飞星火还会“结合自身经历”,举例“我有一个程序员朋友”;钉钉斜杠「/」文风“议论文”特质拉满,进行了反思并给出措施;New Bing 给出的答案不能构成完整文章结构,产出字数493字是偏离字数要求的;至于 ChatGPT,表现中规中矩,因期望过高反而没感受到“惊喜”。
那么,您看下来觉得哪篇文章写得最好?满分 60 分的作文,它们又分别能得多少分呢?
关键词: