当前位置：首页 > news >正文

外国网站在中国做推广如何做一个自己的网站呢

news 2025/7/12 4:46:10

外国网站在中国做推广,如何做一个自己的网站呢,网站建设的素材处理方式,苏州相城区疫情原文链接：https://arxiv.org/abs/2403.11761 0. 概述本文的BEVCar模型是基于环视图像和雷达融合的BEV目标检测和地图分割模型，如图所示。模型的图像分支利用可变形注意力，将图像特征提升到BEV空间中，其中雷达数据用于初始化查询…

原文链接：https://arxiv.org/abs/2403.11761

0. 概述

本文的BEVCar模型是基于环视图像和雷达融合的BEV目标检测和地图分割模型，如图所示。模型的图像分支利用可变形注意力，将图像特征提升到BEV空间中，其中雷达数据用于初始化查询。然后，使用交叉注意力融合图像和雷达特征。最后，降低空间分辨率，并使用多类分类头进行BEV分割（车辆、地图）。
在这里插入图片描述

1. 传感器数据编码

摄像头：使用冻结的DINOv2 ViT-B/14（可学权重的ViT适应器），输出多尺度图像特征。

雷达：类似SparseFusion3D，本文使用的雷达点原始特征包括3D位置 $(x, y, z)$ ，未补偿的速度 $v_x,v_y)$ 和RCS值（捕捉表面的可检测程度）。将点云体素化后，输入下图所示的特征编码模块（FCN表示全连接层，其结构与PointNet类似）。最后将体素特征表达输入体素编码器，压缩高度，得到雷达BEV特征 $f_{rad}$ 。
在这里插入图片描述

2. 图像特征提升

受BEVFormer启发，本文在可变形注意力的基础上，提出使用稀疏雷达点来初始化查询。

查询初始化：即利用雷达的3D信息初步地将图像特征提升到BEV。首先初始化以前视相机为中心的3D体素，将每个体素与一个或两个视图关联，然后根据射线投射将图像特征提升到3D（关联多个视图的体素，其特征取平均）。

注：此步骤与LSS的方法不同，因其考虑了每个像素的大小（如图，射线经过区域的部分相邻区域也被标记为同一颜色）。因此，实际上该方法更接近Simple-BEV（其中双线性采样被替换为最近邻采样）。

最后使用 $1\times 1$ 卷积压缩高度，得到 $X\times Y\times F$ 的特征。然后，使用雷达指导的可变形注意力得到 $X\times Y\times F$ 的初始化查询 $Q_{img}^L$ 。
在这里插入图片描述
提升：将初始化查询 $Q_{img}^L$ 与可学习位置编码 $Q_{pos}^L$ 和可学习查询 $Q_{bev}^L$ 求和得到 $Q^L$ ，再使用可变形注意力从图像进行特征采样，得到最终的图像BEV特征。