当前位置: 首页 > news >正文

网站banner制作怎么开网站

网站banner制作,怎么开网站,重庆建设工程招标投标网,网站建设公司华网天论文地址:https://arxiv.org/pdf/2305.18290 1. 背景与挑战 近年来,大规模无监督语言模型(LM)在知识获取和推理能力方面取得了显著进展,但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈&…

论文地址:https://arxiv.org/pdf/2305.18290

1. 背景与挑战

近年来,大规模无监督语言模型(LM)在知识获取和推理能力方面取得了显著进展,但如何精确控制其行为仍是一个难题。 现有的方法通常通过**强化学习从人类反馈(RLHF)**来引导模型行为,但RLHF存在以下问题:

  • 复杂性高:RLHF需要先训练一个奖励模型来反映人类偏好,然后使用强化学习来微调语言模型,使其在最大化奖励的同时不偏离原始模型太远。
  • 不稳定性:RLHF训练过程复杂且容易不稳定,需要大量超参数调优和采样。
  • 计算成本高:RLHF涉及训练多个模型和在训练循环中采样,消耗大量计算资源。

2. DPO:一种更简单、更高效的方法

为了解决上述问题,本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法,直接从人类偏好数据中优化语言模型,而无需显式的奖励建模或强化学习。

2.1 DPO 的核心思想

DPO 的核心思想是:

  • 将偏好学习问题转化为一个简单的二元分类问题:DPO 通过最大化人类偏好的对数概率,同时最小化不偏好的对数概率,来直接优化语言模型。
  • 引入动态重要性权重:为了防止模型退化,DPO 引入了基于隐式奖励模型的动态重要性权重,该权重根据模型对偏好的排序错误程度进行调整。

2.2 DPO 的工作原理

  1. 构建偏好数据集:从参考模型(通常是经过监督微调的语言模型)中采样生成多个候选响应,并使用人类偏好数据对它们进行标注,生成偏好对 ( y w , y l ) (y_w, y_l) (yw,yl),其中 y w y_w yw 表示更受偏好的响应, y l y_l yl 表示较不受偏好的响应。

  2. 定义 DPO 损失函数

    L D P O ( π θ ; π r e f ) = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] \mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right] LDPO(πθ;πref)=E(x,yw,yl)D[logσ(βlogπref(ywx)πθ(ywx)βlogπref(ylx)πθ(ylx))]

    • π θ \pi_{\theta} πθ:待优化的语言模型。
    • π r e f \pi_{\mathrm{ref}} πref:参考模型,通常是初始的监督微调模型。
    • β \beta β:控制 KL 散度的超参数,用于平衡奖励最大化与模型偏离程度。
    • σ \sigma σ: sigmoid 函数,将输入映射到 (0,1) 之间。

    该损失函数鼓励模型生成更受偏好的响应,同时惩罚生成不受偏好的响应。

  3. 优化模型

    DPO 通过梯度下降法优化上述损失函数,更新模型参数 θ \theta θ。 梯度计算如下:

    ∇ θ L D P O ( π θ ; π r e f ) = − β E ( x , y w , y l ) ∼ D [ σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) ( ∇ θ log ⁡ π ( y w ∣ x ) − ∇ θ log ⁡ π ( y l ∣ x ) ) ] \nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right] θLDPO(πθ;πref)=βE(x,yw,yl)D[σ(r^θ(x,yl)r^θ(x,yw))(θlogπ(ywx)θlogπ(ylx))]

    其中, r ^ θ ( x , y ) = β log ⁡ π θ ( y ∣ x ) π r e f ( y ∣ x ) \hat{r}_{\theta}(x,y) = \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)} r^θ(x,y)=βlogπref(yx)πθ(yx) 表示隐式奖励模型。

    • 当隐式奖励模型对偏好排序错误时,权重 σ ( r ^ θ ( x , y l ) − r ^ θ ( x , y w ) ) \sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big) σ(r^θ(x,yl)r^θ(x,yw)) 更大,这意味着模型会更多地关注那些排序错误的样本,从而更有效地纠正错误。
    • 梯度更新方向:增加偏好响应的对数概率,同时减少不偏好响应的对数概率。

3. DPO 的优势

  • 无需显式奖励建模:DPO 直接从偏好数据中学习,无需训练单独的奖励模型,简化了训练流程。
  • 无需强化学习:DPO 使用简单的二元交叉熵损失进行优化,避免了强化学习带来的复杂性和不稳定性。
  • 计算效率高:DPO 训练过程更高效,消耗的计算资源更少。
  • 性能优越:实验表明,DPO 在控制生成文本的情感、摘要生成和对话生成等任务上,性能优于或至少与现有的 RLHF 方法相当。

4. 实验结果

4.1 情感生成任务

在控制情感生成任务中,DPO 在奖励-KL 散度边界上表现优异,能够在保持低 KL 散度的同时,实现更高的奖励,优于 PPO 等方法。

4.2 摘要生成任务

在 TL;DR 摘要生成任务中,DPO 的胜率(与参考摘要相比)达到 61%,高于 PPO 的 57%。 此外,DPO 对采样温度的鲁棒性更强,而 PPO 的性能在高温下会下降。

4.3 对话生成任务

在 Anthropic HH 对话数据集上,DPO 是唯一一种在计算效率高的前提下,能够超越首选完成度的方法,并且其性能与计算成本更高的 Best of 128 基线相当。

4.4 泛化能力

在将 PPO 和 DPO 策略应用于不同分布(CNN/DailyMail 新闻文章)时,DPO 仍然优于 PPO,表明 DPO 策略具有较好的泛化能力。

4.5 GPT-4 评估与人类评估的一致性

为了验证 GPT-4 评估的可靠性,本文进行了人类研究,发现 GPT-4 的判断与人类判断的一致性较高,表明 GPT-4 是人类评估的合理代理。

5. 讨论与未来方向

  • DPO 策略的泛化能力:DPO 策略在不同分布上的表现如何?与从显式奖励函数中学习相比如何?
  • 奖励过度优化问题:DPO 中是否存在奖励过度优化问题?图 3 中性能的轻微下降是否是其表现?
  • DPO 的可扩展性:DPO 能否扩展到更大规模的模型?
  • GPT-4 评估的改进:如何更好地从自动化系统中获取高质量的判断?
  • DPO 的其他应用:DPO 的应用范围可以扩展到其他模态的生成模型训练。

6. 总结

DPO 是一种无需强化学习的语言模型偏好优化方法,具有以下优势:

  • 简化训练流程:无需显式奖励建模和强化学习。
  • 计算效率高:训练过程更高效,消耗资源更少。
  • 性能优越:在多个任务上表现优于或至少与现有的 RLHF 方法相当。

DPO 为训练更强大的、对齐的语言模型提供了一种更简单、更高效的方法。

http://www.hengruixuexiao.com/news/8784.html

相关文章:

  • 腾讯微信网站建设价格电子商务网站建设与维护
  • 免费的wordpress模板下载地址seo搜索优化专员招聘
  • 梓潼县住房和城乡建设局网站网站怎么才能被百度收录
  • 做相册哪个网站好今日小说搜索百度风云榜
  • 网站音频播放器源码天津百度seo推广
  • 企业网站建设验收产品市场调研怎么做
  • 郑州做网站 码通网页制作的软件有哪些
  • 网站空间是怎么开通的小广告怎么能弄干净
  • 日本做家纺的公司网站杭州seook优屏网络
  • 嘉兴做网站多少钱推广互联网推广
  • wordpress 导航函数seo营销推广公司
  • 个人备案的域名拿来做别的网站找关键词的三种方法
  • 湖北建设部网站中国有几个搜索引擎
  • 网站开发合同文档平台交易网
  • 网站要流量有什么用怎么在百度上发帖推广
  • 宠物网站制作内容昆明优化网站公司
  • 怎么做招聘网站的数据分析正规电商培训班
  • 济南手机网站开发网购平台推广方案
  • 小语种网站营销软文小短文
  • 广州哪里有网站开发搜索引擎的两个基本方法
  • 建设门户网站的请示大数据营销是什么
  • wordpress ocs优化网站快速排名软件
  • 布吉网站建设哪家公司靠谱百度网址大全怎么设为主页
  • 常德天恒建设网站seo免费优化网站
  • 电商网站设计实例推广app的软文案例
  • 西宁专业做网站seo实训报告
  • 网站规划模板惠州优化怎么做seo
  • 企业网站制作服务沈阳网站建设公司
  • 做木工的网站上海单个关键词优化
  • 建设网站需要展示什么区别合肥网站建设