OpenAI 的预测输出功能可将 GPT-4o 模型的输出速度提高 5 倍
对于大多数LLM相关用例而言,延迟都是一个重要问题。对于代码建议和修改长文档等情况,延迟更是影响整体用户体验。想象一下,用户想要重写一份2页文档的最后一段。如果改写后的文档能立即出现是更为合理的,因为改动只涉及一个段落。然而,目前的LLMAPI需要重新生成整个文档,这给用户带来了很大的延迟。
OpenAI目前正试图通过一项名为预测输出的新开发人员功能来解决这一问题。在LLM的大部分输出已经提前知晓的情况下,可以使用该功能。编辑文档或重构代码等任务都可以使用此功能进行改进。预测输出使用推测解码来跳过已知内容,使迭代速度大大加快。
开发人员可以将现有内容作为预测内容传入,从而大大减少延迟。通过这种方式,他们可以更快地重新生成整个内容。
OpenAI与一些外部合作伙伴一起测试了这一功能,结果非常积极。例如,根据微软GitHub团队的内部基准测试,CopilotWorkspace工作负载中的预测输出速度提高了5.8倍。
感谢@openaidevs!我们在CopilotWorkspace工作负载上对其进行了基准测试,测得速度提高了5.8倍!https://t.co/FOCwYJheUc
-EddieAftandilian(@eaftandilian)2024年11月4日
预测输出非常快。我们与@openai合作,帮助测试和改进API,从中获得了很多乐趣。注册获得Exponent的早期访问权限并亲自试用:https://t.co/eC3XD4F3Iwhttps://t.co/1jUzMEARCC
-Exponent(@exponent_run)November4,2024
要使用"预测输出",开发人员会受到一些限制。首先,它只支持GPT-4o和GPT-4o-mini系列机型。不支持最新的o1型号。此外,在使用预测输出时,不支持以下现有API参数:
nvaluesgreaterthan1
logprobs
presence_penaltygreaterthan0
frequency_penaltygreaterthan0
audiooptions
modalitiesotherthantext
max_completion_tokens
tools-functioncallingisnotsupported
在提供预测时,所提供的词元如果不是API最终完成的一部分,则按完成词元费率收费。虽然存在一些限制,但这项新的预测输出功能的潜在优势是巨大的,它为更灵敏、更高效的LLM工具铺平了道路。
踩一下[0]
顶一下[0]