OpenAI正式发布多模态模型GPT-4:已经能在SAT考试中击败90%人类

北京时间3月15日凌晨,ChatGPT开发商OpenAI 发布了发布了全新的多模态预训练大模型 GPT-4,可以更可靠、更具创造力、能处理更细节的指令,根据图片和文字提示都能生成相应内容。

具体来说来说,GPT-4 相比上一代的模型,实现了飞跃式提升:支持图像和文本输入,拥有强大的识图能力;大幅提升了文字输入限制,在ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以处理一些更加细节的指令;回答准确性也得到了显著提高。

OpenAI表示,它使用的是微软(MSFT.US)Azure训练模型,微软此前已经向其投资了数十亿美元。OpenAI没有公布具体模型大小的细节,也没有公布用来训练模型的硬件,理由是“竞争情况”。

根据此前资料显示,发布于 2020 年的 GPT-3 有 1750 亿个参数,而GPT-4 的参数据猜测可能将达到约 100 万亿个参数。这也使得GPT-4 在能力、范围和潜力方面相比GPT-3,将拥有一个质的飞跃。

OpenAI 指出,相较前一代的GPT-3.5, GPT-4在许多专业测试中表现出超过绝大多数人类的水平。在包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分均高于88%的应试者。在美国法学院毕业生参加的律师资格考试中,旧模型得分在应试者中排名后10%,而新模型得分在应试者中排名约前10%,即击败了约90%的人类。

OpenAI 总裁Greg Brockman 称,GPT-4 可拍摄一张简单网站的手绘模型照片,并以此为基础创建真正的网站。根据实际演示,GPT-4 还能计算税收。

OpenAI表示,虽然两个版本在日常对话中看起来很相似,但当任务复杂到一定程度时,差异就表现出来了,GPT-4模型将更可靠、更有创造力,能够处理更微妙的指令。不仅能够产生更少的错误答案,更少地偏离话题,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”

不过,OpenAI也警告称,GPT-4还不完美,在许多情况下,它的能力不如人类。它仍然存在“幻觉”或自己编造的主要问题,而且在事实问题上并不可靠。它仍然倾向于在错误的时候坚持自己是正确的。

OpenAI CEO Sam Altman 在Twitter 上表示GPT-4 是最有能力和符合人类价值观和意图的模型,尽管它仍具有缺陷。GPT-4 回应无法生成内容请求的可能性比前一代低82%,在部分真实性测试中得分高40%。

据微软表示,他们与 OpenAI 共同开发的 Bing Chat 目前正在基于 GPT-4运行。

在GPT-4 发布后,OpenAI 也直接升级了 ChatGPT。文字输入功能将供给ChatGPT Plus 订阅者(可以在 chat.openai.com 上获得),但图像输入功能仍是预览版本。如果要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

值得一提的是,谷歌于当地时间周二宣布推出协作软件“魔杖”(magic wand),几乎可以起草任何文件。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容