为了将大型言语模子(LLM)与人类的价钱和企图对齐,研习人类反应至合紧急,这能确保它们是有效的、古道的和无害的。正在对齐 LLM 方面,一种有用的手腕是按照人类反应的深化研习(RLHF)。尽量经典 RLHF 手腕的结果很杰出,但其多阶段的历程依旧带来了极少优化困难,此中涉及到熬炼一个嘉勉模子,然后优化一个战略模子来最大化该嘉勉。
近段工夫已有极少商酌者探求了更简易的离线算法,此中之一便是直接偏好优化(DPO)。DPO 是通过参数化 RLHF 中的嘉勉函数来直接按照偏好数据研习战略模子,如许就无需显式的嘉勉模子了。该手腕简易不变,仍旧被寻常用于履行。
操纵 DPO 时,获得隐式嘉勉的办法是操纵眼前战略模子和监视式微调(SFT)模子之间的反映似然比的对数 的对数比。不过,这种修筑嘉勉的办法并未与指导天生的目标直接对齐,该目标约莫是战略模子所天生反映的均匀对数似然。熬炼和推理之间的这种差别或许导致职能不佳。
为此,弗吉尼亚大学的帮理教导孟瑜与普林斯顿大学的正在读博士夏梦舟和帮理教导陈丹琦三人联合提出了 SimPO—— 一种简易却有用的离线偏好优化算法。
该算法的主题是将偏好优化宗旨中的嘉勉函数与天生目标对齐。SimPO 包蕴两个合键组件:(1)正在长度上归一化的嘉勉,其估计办法是操纵战略模子的嘉勉中扫数 token 的均匀对数概率;(2)宗旨嘉勉差额,用以确保获胜和朽败反映之间的嘉勉差赶上这个差额。
简易:SimPO 不须要参考模子,以是比 DPO 等其它依赖参考模子的手腕更轻量更容易实行。
职能上风明明:尽量 SimPO 很简易,但其职能却明明优于 DPO 及其最新变体(例如近期的无参考式宗旨 ORPO)。如图 1 所示。而且正在区另表熬炼筑树和多种指令按照基准(包罗 AlpacaEval 2 和高难度的 Arena-Hard 基准)上,SimPO 都有不变的上风。
尽量幼的长度诈骗:比拟于 SFT 或 DPO 模子,SimPO 不会明显填充反映长度(见表 1),这阐发其长度诈骗是最幼的。
该团队举办了大宗分解,结果注明 SimPO 能更有用地诈骗偏好数据,从而正在验证集上对高质地和低质地反映的似然举办更确凿的排序,这进一步能培植更好的战略模子。
为便于分解,下面最先先容 DPO 的布景,然后阐发 DPO 的嘉勉与天生所用的似然胸怀之间的差别,并提出一种无参考的取代嘉勉公式来缓解这一题目。结果,通过将宗旨嘉勉差额项整合进 Bradley-Terry 模子中,推导出 SimPO 宗旨。
DPO 是最常用的离线偏好优化手腕之一。DPO 并不会研习一个显式的嘉勉模子,而是操纵一个带最优战略的闭式表达式来对嘉勉函数 r 举办从新参数化:
此中 π_θ 是战略模子,π_ref 是参考战略(平大凡 SFT 模子),Z (x) 是配分函数。通过将这种嘉勉修筑办法整合进 Bradley-Terry (BT) 排名宗旨,
,DPO 可操纵战略模子而非嘉勉模子来表现偏好数据的概率,从而获得以下宗旨:
此中 (x, y_w, y_l) 是由来自偏好数据集 D 的 prompt、获胜反映和朽败反映组成的偏好对。
DPO 的嘉勉与天生之间的差别。操纵 (1) 式举动隐式的嘉勉表达式有以下舛讹:(1) 熬炼阶段须要参考模子 π_ref,这会带来异常的内存和估计本钱;(2) 熬炼阶段优化的嘉勉与推理所用的天生目标之间存正在差别。全部来说,正在天生阶段,会操纵战略模子 π_θ 天生一个能近似最大化均匀对数似然的序列,界说如下:
正在解码历程中直接最大化该目标优劣常障碍的,为此可能操纵多种解码战略,如贪图解码、波束查找、核采样和 top-k 采样。别的,该目标平凡用于正在言语模子践诺多选职责时对选项举办排名。正在 DPO 中,看待苟且三元组 (x, y_w, y_l),餍足嘉勉排名 r (x, y_w) r (x, y_l) 并不必定意味着餍足似然排名
。原形上,正在操纵 DPO 熬炼时,留存会合约莫唯有 50% 的三元组餍足这个前提(见图 4b)。
修筑正在长度上归一化的嘉勉。很天然地,咱们会研讨操纵 (3) 式中的 p_θ 来调换 DPO 中的嘉勉修筑,使其与指导天生的似然目标对齐。这会获得一个正在长度上归一化的嘉勉:
此中 β 是操纵嘉勉差别巨细的常量。该团队创造,按照反映长度对嘉勉举办归一化卓殊枢纽;从嘉勉公式中移除长度归一化项会导致模子偏向于天生更长但质地更低的序列。如许一来,修筑的嘉勉中就无需参考模子了,从而实行比依赖参考模子的算法更高的内存和估计结果。
宗旨嘉勉差额。其余,该团队还为 Bradley-Terry 宗旨引入了一个宗旨嘉勉差额项 γ 0,以确保获胜反映的嘉勉 r (x, y_w) 赶上朽败反映的嘉勉 r (x, y_l) 起码 γ:
两个类之间的差额已知会影响分类器的泛化才力。正在操纵随机模子初始化的规范熬炼筑树中,填充宗旨差额平凡能擢升泛化职能。正在偏好优化中,这两个种别是单个输入的获胜或朽败反映。
正在履行中,该团队考查到跟着宗旨差额增大,天生质地一早先会擢升超越,但当这个差额变得过大时,天生质地就会降落。DPO 的一种变体 IPO 也修筑了与 SimPO 肖似的宗旨嘉勉差额,但其具体宗旨的功效不足 SimPO。
宗旨。结果,通过将 (4) 式代入到 (5) 式中,可能获得 SimPO 宗旨:
总结起来,SimPO 采用了与天生目标直接对齐的隐式嘉勉款式,从而扫除了对参考模子的需求。别的,其还引入了一个宗旨嘉勉差额 γ 来折柳获胜和朽败反映。
评估基准。该团队操纵了三个最常用的绽放式指令按照基准:MT-Bench、AlpacaEval 2 和 Arena-Hard v0.1。这些基准可评估模子正在各式盘查上的多样化对话才力,并已被社区寻常采用。表 2 给出了极少细节。
SimPO 的展现老是明显优于之前已有的偏好优化手腕。如表 4 所示,尽量扫数的偏好优化算法的展现都优于 SFT 模子,但简易的 SimPO 却正在扫数基准和筑树上都得到了最佳展现。如许周全的大幅当先彰显了 SimPO 的妥当性和有用性。
基准质地各不相通。可能考查到,正在 Arena-Hard 上的胜率明明低于正在 AlpacaEval 2 上胜率,这阐发 Arena-Hard 是更障碍的基准。
Instruct 筑树会带来明显的职能增益。可能看到,Instruct 筑树正在扫数基准上都周全优于 Base 筑树。这或许是由于这些模子操纵了更高质地的 SFT 模子来举办初始化以及这些模子天生的偏好数据的质地更高。
SimPO 的两种枢纽计划都很紧急。表 5 显示了对 SimPO 的每种枢纽计划举办融解测验的结果。(1) 移除 (4) 式中的长度归一化(即 w/o LN);(2) 将 (6) 式中的宗旨嘉勉差额筑树为 0(即 γ = 0)。
移除长度归一化对结果的影响最大。该团队商酌创造,这会导致模子天发展且反复的形式,由此要紧拉低输出的具体质地。将 γ 设为 0 也会导致 SimPO 的职能降落,这阐发 0 并非最优的宗旨嘉勉差额。
结果,该团队还从四个角度周全比力了 DPO 与 SimPO:(1) 似然 - 长度联系性、(2) 嘉勉修筑、(3) 嘉勉确凿度、(4) 算法结果。结果注明 SimPO 正在确凿度和结果方面优于 DPO。
(不包蕴配分函数)缺乏一个用于长度归一化的显式项,但战略模子和参考模子之间的对数比可能隐式地抵消长度私见。如表 6 与图 4a 所示,比拟于没有任何长度归一化的手腕(记为 SimPO w/o LN),操纵 DPO 会低浸均匀对数似然和反映长度之间的斯皮尔曼联系系数。不过,当与 SimPO 比力时,其如故展现出更强的正联系性超越。
DPO 的嘉勉与均匀对数似然目标之间存正在差别,这会直接影响天生。如图 4b 所示,正在 UltraFeedback 熬炼集上的实例中,此中
。相较之下,SimPO 是直接将均匀对数似然(由 β 缩放)用作嘉勉表达式,由此全体扫除了此中的差别。
图 4c 比力了 SimPO 和 DPO 的嘉勉确凿度,这评估的是它们最终研习到的嘉勉与留存集上的偏好标签的对齐水准。可能考查到,SimPO 的嘉勉确凿度高于 DPO,这阐发 SimPO 的嘉勉计划有帮于实行更有用的泛化和更高质地的天生。
SimPO 的另一大上风是结果,真相它不操纵参考模子。图 4d 给出了正在 8×H100 GPU 上操纵 Llama3-Base 筑树时,SimPO 和 DPO 的具体运转工夫和每台 GPU 的峰值内存操纵量。比拟于原版 DPO 实行,得益于扫除了操纵参考模子的前向通过,SimPO 可将运转工夫低浸约 20%,将 GPU 内存操纵量低浸约 10%。
为了开掘和显示人为智能范围拥有商场角逐力、手艺气力的机构、产物、案例,造成 “鸿雁” 引颈效应,机械之心建议 2024 “人为智能 +” 标杆演示搜集举止。本次搜集将筑树《2024 “人为智能 +” 产物标杆》、《2024 “人为智能 +” 更始案例标杆》、《2024 人为智能隐形冠军企业标杆》三大维度,面向环球搜集 “人为智能 +” 标杆演示。本次搜聚会果将于 7 月正在 2024 WAIC “人为智能 +” 论坛上发布并举办颁奖。本次搜集截至 2024 年 6 月 7 日,最终结果将于 7 月活着界人为智能大会上发布并颁奖。
原题目:《周全超越DPO:陈丹琦团队提出简易偏好优化SimPO,还炼出最强8B开源模子》
本文为滂湃号作家或机构正在滂湃消息上传并公布,仅代表该作家或机构见识,不代表滂湃消息的见识或态度,滂湃消息仅供给新闻公布平台。申请滂湃号请用电脑拜访。周到突出DPO:陈丹琦团队提出简便偏好优化SimPO还炼出最强8B开源模子超越