当前位置: 首页 > news >正文

网站开发怎么谈客户大数据营销系统

网站开发怎么谈客户,大数据营销系统,网站的ppt方案怎么做,微信公众平台官网电话论文:https://arxiv.org/pdf/2203.15556.pdf 发表:2022 前文回顾: OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(缩放法则)也一直影响了后续大模型的训练。其给出的结论是最佳计算效…

论文:https://arxiv.org/pdf/2203.15556.pdf

发表:2022

前文回顾:

OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(缩放法则)也一直影响了后续大模型的训练。其给出的结论是最佳计算效率训练涉及在相对适中的数据量上训练非常大的模型并在收敛之前early stopping所以后续的工作都专注于提升参数规模,设计越来越大的模型,而不是在更多的数据上训练较小的模型。每个人都认为模型大小比数据大小重要的多得多!但DeepMind在2022年提出了不同的看法。

摘要

1:目前的LLM大模型训练都不够充分,原因是:大部分精力主要花费在扩大模型尺寸上,训练数据却没有同步增长。这个主要是受OpenAI论文观点的影响) 

2:DeepMind团队发现:最优的训练是模型尺寸和训练的Token数量应该是等比例增长。如果模型尺寸翻倍,token数量也应该翻倍。

简介

DeepMind得到了与OpenAI相同的结论:大模型在训练到loss最低前已经到算力最优了,即在收敛前进行early stopping。尽管得出了同样的结论,但DeepMind认为:大型模型应训练更多的token,远超过OPenAI作者推荐的数量。具体来说,给定计算预算增加10倍,OpenAI建议模型大小应增加5.5倍,而训练token数量只应增加1.8倍。相反,DeepMind认为模型大小和训练令牌数量应该以相同的比例增长。

相关工作

OpenAI首先观测到了scale law法则,DeepMind也采用了相同的技术手段:训练不同尺寸的模型,然后进行观测。但他们存在以下不同点。

1:OpenAI固定了训练的token数目以及学习率方案,这阻止了他们研究这些超参数对损失的影响。相反,DeepMind发现将学习率调度设置为大约匹配训练token数量可以导致最好的最终损失,无论模型大小如何作者举例:130B token,使用cosine学习率。因为会在收敛前进行早停,所以观测到的都是中间状态(即训练token数量还没有到130B token 时候的loss),使用这些中间损失观测,导致对训练模型在小于130B token的数据上的有效性的低估,并最终导致了一个结论,即模型大小应比训练数据大小增长得更快。DeepMind的观点是同比例缩放

2:OpenAI使用的模型参数量比较小,DeepMind观测的范围更广。

3 估计最优的参数 / 训练token数目

首先训练一系列模型:模型大小和训练数据数量两方面都有所不同,然后使用所得到的训练曲线来拟合他们应该满足的经验规律。

训练70M到10B的一系列模型大小,每个模型大小针对四个不同的余弦周期长度进行训练。从这些曲线中,提取了每FLOP最小损失的包络,并用这些点来估计给定计算量条件下最优模型大小以及最优训练token数。(此处的scale law 实践与OpenAI一致)。从上图不难看出:模型越大,需要的算力越大,需要的token也越多。

左图可以看到计算量与模型性能呈现幂律关系(可以认为数据和模型都不受限制),根据中图和右图,可以发现N_{opt}\propto C^{a }D_{opt}\propto C^{b },即计算效率最优时,模型的参数与计算量的幂次成线性关系,数据量的大小也与计算量的幂次成线性关系

根据C=6ND,可以推算出a+b=1,但是a,b分别是多少存在分歧。

OpenAI:认为模型规模更重要,即a=0.73, b=0.27,

DeepMind在Chinchilla工作和Google在PaLM工作中都验证了 a=b=0.5 ,即模型和数据同等重要。

所以假定计算量整体放大10倍,OpenAI认为模型参数更重要,模型应放大10^{0.73} (5.32)倍,数据放大 10^{0.27} (1.86)倍;后来DeepMind和Google认为模型参数量与数据同等重要,两者都应该分别放大 10^{0.5} (3.16)倍。

3.1 方案1:固定模型,训练不同的token数目

通过方案1,得到N、D与C的幂次关系:模型尺寸和数据量同等重要,缩放比例相同,均为0.5。 

3.2 方案2:固定FLOP

 

选取9种不同的计算量:e18−e21 ,观测不同参数量模型的训练情况:

在每条曲线的最小值的左侧,模型太小——在较少数据上训练的较大模型将是一种改进。

在每条曲线的最小值的右侧,模型太大——在更多数据上训练的较小模型将是一种改进。

最好的模型处于最小值。

 这个是DeepMind推荐的模型参数N、训练数据D、训练算力C的配比。可以发现和OpenAI的推荐是不一样的。也与BaiChuan2中7B/13B训练需要2.6T的数据量对不上。

http://www.hengruixuexiao.com/news/34137.html

相关文章:

  • 个人网站做淘宝客违规武汉网络推广网络营销
  • 网站引导页模板厦门seo推广
  • 自己怎么设计公主裙现在百度怎么优化排名
  • 珠海专业网站制作公司软文范例大全800字
  • 域名弄好了网站怎么建设seo博客写作
  • 杭州装饰网站建设出售网站平台
  • 怎么做钓qq密码网站网站关键词收录查询
  • 怎么做淘宝客优惠劵网站网络营销策略名词解释
  • 网站怎么做分类聚合竞价托管收费标准
  • 自己做网站挣钱不推广方法
  • dwcs5怎么把做的网站适屏软文技巧
  • 做一个网站需要多少钱 怎么做肇庆百度快速排名
  • 手机网站优化公司市场营销在线课程
  • 做虚假网站犯法吗苏州首页排名关键词优化
  • 许昌网站优化天津seo托管
  • ipad网站开发韩国vs加纳分析比分
  • 怎么修复网站死链购买链接怎么买
  • b2c电商网站开发手机如何制作网站教程
  • 网站权重的提升企业网络营销策略分析案例
  • 南通高端网站建设营销渠道策略有哪些
  • 学什么可以先做网站seo指什么
  • 网站添加cms企业推广是什么意思
  • 香港最新消息新闻seo软件
  • wordpress应用app主题广告优化师工作内容
  • 池州做网站培训网站推广宣传语
  • 网站搭建怎么做百度关键词优化工具
  • 合肥建设网站查询怎样申请自己的电商平台
  • 易网官方网站郑州网站建设推广优化
  • 论坛网站论坛网站建设建设常州seo
  • 潍坊seo网站推广市场营销策略包括哪些策略