当前位置: 首页 > news >正文

哪家微网站做的好百度客服人工服务

哪家微网站做的好,百度客服人工服务,网页设计基础考试题目,宁波网站建设公司哪家靠谱GroupViT: Semantic Segmentation Emerges from Text Supervision 一、思想 把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这…

GroupViT: Semantic Segmentation Emerges from Text Supervision

一、思想

把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这种组级联,可以把图片中小分割块组成大块。

二、模型

图片分成不重叠的N个块,每个块经过线性映射变成 image token,除了 image tokens ,每个grouping stage同时concat一组可学习的group tokens,image token和group tokens都输入Transformer层。

Grouping Block的作用是把小块组合成大块,每个阶段都有该模块。

不是把所有的image token前向传播到所有Transformer层。

每个阶段经过GroupingBlock后得到的tokens数量越来越少,因为分割的区域越来越大,分割的数量越来越少。最后一层后,所有分割tokens经过Transformer层,输出平均池化,得到图片表示z。

然后用了一个hard assignment技巧,使得可微分,将每个分割token分配给一个组。然后同一组的所有token融合得到一个新的分割token:

双编码器结构,GroupViT是图片编码器,Transformer是文本编码器,最终GroupViT输出的图片向量是所有输出的分割token的平均向量。

三、损失函数

Image-Text Contrastive Loss:

Multi-Label Image-Text Contrastive Loss:

从GT文本中随机选出K个名词,然后用模版填充:“A photo of a {noun}”.

原始的文本图片对:

the new sets of image-“prompted text” pairs:

Zero-Shot Transfer to Semantic Segmentation

四、实验

部分细节:

ViT-S+12 Transformer layers+hidden dimension of 384

input images of size 224 × 224+patch size of 16 × 16

experiment with 1-stage and 2-stage architectures for GroupViT:

        1-stage:

        64 group tokens and insert the grouping block after the sixth Transformer layer;Before the grouping block, we project the 64 group tokens into 8 tokens using an MLP-Mixer layer [76] and output 8 segment tokens.

        2-stage:

        there are 64 and 8 group tokens in the first and second grouping stages, respectively. We insert grouping blocks after the sixth and ninth Transformer layers. We use a 2-layer MLP to project the visual and text embedding vectors into the same latent space.

Our batch size is 4096 with a learning rate initialized to 0.0016 and decayed via the cosine schedule. We use the Adam optimizer with a weight decay of 0.05. We train GroupVIT for 30 epochs with the 5 initial epochs containing linear warm-up. For the multi-label contrastive loss, we set K = 3. 

结果:

http://www.hengruixuexiao.com/news/11419.html

相关文章:

  • 七台河网站seoseo排名工具提升流量
  • 购物网站建设成本广州网站定制多少钱
  • 汕头网站搭建多少钱推广哪个app最挣钱
  • 正规网站开发文案网络营销研究背景及意义
  • 做设计网站百合seo培训
  • 网站和二级目录权重网页制作app
  • 成都网站建设熊掌号百度网站排名优化价格
  • wordpress微博头条上海优化关键词的公司
  • 渝东建设工程造价信息网关键词排名优化软件策略
  • vs2005做的网站转换为2012百度搜索推广开户
  • 医院网站建设费用推广方式有哪些?
  • 地方网站做相亲赢利点在哪里网站如何赚钱
  • 怎样购买起名软件自己做网站软文是什么样子的
  • 做室内设计的网站有哪些公司品牌推广方案范文
  • 做网站技术哪里可以免费推广广告
  • 雨花区师德师风建设专题网站站长之家官网
  • 西宁网站建设排名重庆seo是什么
  • 网站建设需要学习什么南宁网络推广品牌
  • asp网站介绍百度小说搜索风云榜总榜
  • 龙岗在线网站建设深圳seo优化排名
  • 龙岗网站建设网站排名优化怎么把产品推广到各大平台
  • 潍坊住房公积金个人查询入口全能优化大师
  • 阿里云多网站建设重庆seo黄智
  • 外贸网站模板 外贸网站制作西安优化外包
  • 买空间哪个网站好友情链接有什么用
  • 广东营销型网站建设百度指数里的资讯指数是什么
  • 电影资源采集网站咋做搜索关键词是什么意思
  • 佛山网站建设灵格网络公司名字
  • 寻找建设网站客户天津网站推广
  • 网站一定备案抖音搜索引擎推广