收藏 分享(赏)

OpenAI:GPT-4 技术报告(中文版).pdf

上传人:a****2 文档编号:3616088 上传时间:2024-06-26 格式:PDF 页数:151 大小:14.02MB
下载 相关 举报
OpenAI:GPT-4 技术报告(中文版).pdf_第1页
第1页 / 共151页
OpenAI:GPT-4 技术报告(中文版).pdf_第2页
第2页 / 共151页
OpenAI:GPT-4 技术报告(中文版).pdf_第3页
第3页 / 共151页
OpenAI:GPT-4 技术报告(中文版).pdf_第4页
第4页 / 共151页
OpenAI:GPT-4 技术报告(中文版).pdf_第5页
第5页 / 共151页
OpenAI:GPT-4 技术报告(中文版).pdf_第6页
第6页 / 共151页
亲,该文档总共151页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、OpenA1代码库下一个单调预测因系到的剂et41与观察到的宇位60。.员测gt45040-30-2010100D10n1y1000.01110m100u0.01计图一。GPT-4和更小型号的性能。指标是从我们的内部代码库派生的数据集的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。我们选择关注损失,因为在不同数量的训练计算中,它往往比其他测量方法噪声更小。虚线显示了适合较小模型(不包括GPT4)的幂律;这种拟合准确地预测了GPT4号的最终损失。x轴被训练计算归一化,使得GT4为1。23个编码问题的能力预测平均对数通过率5观赛到的厦到的族p。预测gpt40-1u10a100000

2、t0.0t0.1110100p0.0010.01011计算4其中k和是正常数,P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。在实践中,很低的通过率很难或不可能估计,所以我们限制问题P和模型M,使得给定一些大的样本预算,每个问题由每个模型至少解决一次。我们在训练结束前,仅使用训练前可用的信息,在HumanEval上记录了对GPT-4表现的预测。根据较小模型的表现,除了15个最难的人类评估问题之外,所有问题都被分成6个难度桶。第三个最简单的桶的结果如图2所示,表阴对于HumanEvall问题的这个子集,结果预测非常准确,我们可以准确地估计几个较小模型的log(pass_rat

3、e)。对其他五个桶的预测表现几乎一样好,主要的例外是GPT-4不如我们对最容易的桶的预测。某些能力仍然难以预测。例如,逆标度奖【38】提出了几个模型性能随标度而降低的任务。与魏等人最近的研究结果相似。39,我们发现GPT-4逆转了这一趋势,如图3中一项叫做后见之明忽视的任务40所示。逆比例奖,事后诸葛亮精确度10050ADABABBAGECurieGPT-3.5GPT-4型号babbagecuriegpt-3.5图3。GPT-4和更小型号在后见之明忽略任务中的表现。精度显示在y轴上,越高越好。ada、babbage和curie指的是通过OpenAI API【41】提供的模型。我们认为,准确预测

4、未来能力对安全非常重要。展望未来,我们计划在大型模型训练开始之前改进这些方法,并跨各种功能注册性能预测,我们希望这成为该领域的共同目标。4能力我们在一系列不同的基准上测试了GPT-4,包括最初为人类设计的模拟考试。3我们没有为这些考试做专门的培训。考试中的少数问题是模型在训练中看到的;对于每次考试,我们运行一个删除这些问题的变体,并报告两个问题中较低的分数。我们认为结果具有代表性。有关污染的更多详细信息(方法和每次检查的统计数据),请参见附录C。考试来源于公开的材料。考试问题包括选择题和自由回答题;我们为每种格式设计了单独的提示,并且图像包含在需要它的问题的输入中。评估设置是根据一组验证考试的表现设计的,我们报告延期考试的最终结果。总分数是通过使用公开可用的方法结合每次考试的多项选择和自由回答问题分数来确定的。有关考试评估方法的更多详细信息,请参见附录A。3我们使用练后的UHF模型进行这些检查6

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 实验报告

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2