当前位置: 首页 > news >正文

网站建设工作策划方案深圳全网营销推广平台

网站建设工作策划方案,深圳全网营销推广平台,网站自己维护,武汉江夏区建设局网站一、概述 Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。 二、模…

一、概述

        Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。

二、模型架构

        1.功能模块

                功能模块结构如下图所示:

                Inputs:编码器输入

                Outputs:解码器输入(解码器之前时刻的输出作为输入)

                Positional Encoding

                Transformer Block(编码器):由一个具有残差连接的多头注意力层和一个具有残差连接的前向传递网络组成。编码器的输出会作为解码器的输入。

                 Transformer Block(解码器):相较于编码器多了一个Masked Multi-Head Attention(掩码多头注意力)机制。

         2.网络结构

                ①编码器

                        堆叠了6个Transfomer Block,每个Block中有两个Sublyaer(子层)(Multi-head self-attention mechanism(多头自注意力机制)+MLP(多层感知机)),最后经过一个Layer Normalization

                        其采用公式可表达为:LayerNorm(x+Sublayer(x))<具备残差连接>

                        Layer Norm类似于Batch Nrom,均为求均值的算法,不同点在于Batch Nrom是求一个batch内(列)的均值,而Layer Norm是求一个样本(行)内的均值

                ②解码器

                        堆叠了6个Transfomer Block,每个Block中有三个Sublyaer(子层),解码器内会做一个自回归(当前时刻的输入是上一个时间的输出)。而为了保证 t 时刻不会看到之后的输出,在第一个多头注意力块中增加了一个掩码机制进行屏蔽。

                ③注意力机制

                        注意力函数(将query和一些key-value对映射成一个输出的函数,每个value的权重是其对应的key和查询的query的相似度得来的)

                        其公式可以写为:Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

                        query和key的长度均等于d_k,value的长度等于d_v;将每组querykey进行内积作为相似度(值越大,相似度越高--cos函数);得出结果后再除以\sqrt{d_k}(即向量长度);最后以一个softmax得到权重。

                        得出权重后与vuale进行乘积即可得到输出。

                        实际运算时,query和key均可写作矩阵,采用下图所示方法计算。

                        掩码机制: 对于时间 k 的输入Q_t而言,在计算时应该只看k_1k_{t-1}时刻的值,但实际上注意力计算时Q_t会和所有 k 进行运算。固引入掩码机制,具体做法为:将k_t及其之后计算的值替换为一个很大的负数,在经过softmax后就会变为0。

                        多头机制:将整个query、key、value投影到低维(h次,原文的h=8),再做h次注意力函数;将每个函数的输出并在一起,再投影回高维度得到结果。如下图所示:

                                 图中的Linear用于低维投影;Scaled Dot-Product Attention为注意力机制。concat负责将结果合并。

                                其公式为:MultiHead(Q,K,V)=Concat(head_1,...head_h)W^O

                                                                where  head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

http://www.hengruixuexiao.com/news/20497.html

相关文章:

  • avian wordpress关键字优化用什么系统
  • 个人网站教程seo的工具有哪些
  • wordpress分类归档不科学提升seo搜索排名
  • 佛山市骏域网站建设专家北京知名seo公司精准互联
  • 怎么做中英文网站2023年免费b站推广大全
  • 自助建网站哪个好windows优化大师电脑版
  • 宿迁哪里做网站网站建设公司企业网站
  • 博客网站源码搜索引擎调词工具
  • 豆芽网站建设西安网站维护公司
  • 做网站最好软件seo技术论坛
  • 上海网站开发企业分析网站
  • 广州做企业网站找哪家公司好线上推广引流渠道
  • 网站速度提升如何提交百度收录
  • 朝阳市网站公司武汉百度推广电话
  • 网站建设公司每年可以做多少个网站免费网站seo
  • 上海 食品网站设计淘宝推广运营
  • 昆山做网站的jofuns外链生成器
  • 说做网站被收债网络营销策略
  • 北京网站建设第一品牌制作网站教程
  • 旅游网站设计模版seo哪家公司好
  • 湛江网站建设保定公司免费推广有哪些
  • 仿历史网站模板百度网址查询
  • 微商运营seo公司运营
  • 武汉专业网站建设推广企业培训考试app
  • 湖南建站网站百度seo快速排名优化
  • 泰钢材企业网站源码种子搜索器
  • 专业做网站建设公司怎么样惠州seo代理
  • 教育局网站建设管理工作意见seo咨询岳阳
  • 如何查询网站是不是诈骗网站seo外包杭州
  • 青岛公司网站建设公司windows优化大师下载安装