微网站 服务器,上传下载网站建设,巢湖seo推广选哪家,wordpress引用js文件路径目标检测模型 #xff08;一#xff09; Two Stage#xff1a;第一阶段为区域建议#xff08;Region Proposal, RP#xff09;#xff0c;即图像中可能包含目标的预选框#xff0c;通常由一组边界框坐标和置信度分数组成。第二阶段是分类和回归#xff0c;即对第一阶段…目标检测模型一Two Stage第一阶段为区域建议Region Proposal, RP即图像中可能包含目标的预选框通常由一组边界框坐标和置信度分数组成。第二阶段是分类和回归即对第一阶段生成的可能的区域进行分类目标或背景以及对边框进行回归得到更准确的边框。获得RP的方法1传统方法选择性搜索SS类似层次化聚类基于图像特征的层次化区域合并生成多尺度候选框。先将图像分割为较小的区域可小到单像素然后计算区域的相似度有不同维度评价相似度的指标迭代合并相似度最高的区域对直到覆盖整个图像。EdgeBoxes基于图像边缘信息预测物体可能位置Randomized Prim、CPMC等2深度学习方法Region Proposal NetworkRPN参考论文Faster R-CNNRPN搭建的网络结构如下3*3滑动窗口卷积的作用是模拟将图像用于分类的特征转化为用于目标检测的特征因为所用的VGG-16提取的特征是用于分类任务的那么为什么是3*3卷积块为什么只需一层卷积层就足以转换是否有研究对这个部分做改进有关锚点(Anchor)配置锚点指的是预先定义大小和长宽比的参考边框。Faster R-CNN中用的3个尺度为128², 256², 512²所用的3个长宽比是111221所以在每个像素作为中心点处共有9类锚点。锚点的尺寸与长宽比针对的是原图像而非特征图。计算分类分支和回归分支时使用的都是1*1卷积层通道数分别为2k和4k。对于分类分支每个通道的输出代表第k种锚点对应于目标或背景的概率相当于2k个线性分类器每个线性分类器将学习独属于自己的锚点的相应权重。对于回归分支每个通道的输出代表第k种锚点对应的相对于锚点中心的偏移量t_x边界框相对于中心的x方向的偏移量, t_y边界框相对于中心的y方向的偏移量, t_w宽度比的对数, t_h高度比的对数除以锚点的宽度和长度以归一化取对数可以使得数据较为对称锚点精修计算公式为t_x (G_x-C_x)/C_w, t_y (G_y - C_y)/C_h, t_w log(G_w / C_w), t_h log(G_h / C_h), 更新边界框的公式为 G_x C_xC_w*t_x , G_y C_yC_h*t_y , G_w C_w * e^t_w, G_h C_h * e^t_h .关于样本分配问题由于在图像中目标的面积一般较小大部分都为背景则会导致生成的所有锚点中负样本占了绝大多数因此需要对样本做一些处理。本文中选择的方式是选择与某个真实框IoU交并比 0.7的锚点和与真实框有最大IoU的锚点即使IoU 0.7作为正样本选择与所有真实框IoU 0.3的锚点作为负样本对于IoU在[0.3, 0.7]之间的锚点选择忽略。损失函数的选择本文中选择的损失函数为一个多任务组合函数将分类任务与回归任务组合起来。其中前一项为分类任务的损失其中Ncls为归一化参数为类别的总数Lcls为二分类交叉熵损失函数。第二项为回归任务的损失∗保证了只对正样本计算回归损失其中Nreg为归一化参数为锚点的数量Lreg为smooth L1函数λ为平衡权重可以使得模型对于两种任务的注意力大致平衡常设为10因为回归任务的损失通常比分类任务小一个数量级。非极大值抑制Non-Maximum SuppressionNMS将精修后的锚点按对应于目标的概率降序排列然后依次对每个精修锚点计算与最高分锚点的IoU若IoU 0.7表示这两个锚点很可能对应的是同一个目标则对其抑制否则保留。经过NMS后可以输出高质量的候选区域建议。分类和回归的方法检测网络1 传统方法使用传统的机器学习和模式识别方法如SVM决策树集成学习等2 深度学习方法使用深度学习方法通过不同的卷积层、池化层和全连接层的组合实现不同的效果。不同模型的选择不同。以Fast R-CNN为例参考论文1504.08083检测网络结构图如下第一阶段采用的方法为SS获得的是原始图像的区域建议对于输入的图像经过一个主干CNN得到共享特征图ROI投影是将得到的原始图像上的区域建议映射到特征图的对应区域一般区域将缩小下采样率倍此映射要根据主干CNN的结构ROI Pooling解决如何从不同大小的区域提议中提取固定长度的特征向量当时是为了输入到全连接层现在是否还需要可以共用参数对于ROI投影得到的h*w的特征图上的区域为了将其标准化为H*W的区域计算其每个网格的宽度bin_w w/W, bin_h h/H得到的是两个浮点数然后对两个浮点数进行向下取整量化到整数索引最后对每个量化后的区域作max pooling则可以得到相同尺寸的输出。对ROI Pooling的输出进行展平为一维向量对于回归分支采用BBox Regression (Bounding Box Regression)即RPN中使用的锚点精修方法经典模型深度学习方法1 R-CNN首个将深度学习引进两阶段检测模型但只用于提取特征实现分类时依旧采用SVM,无法实现端到端优化第一阶段用SS生成约 2000 个候选区域。第二阶段对每个候选区域裁剪并缩放为固定尺寸如 227×227用预训练的 CNNAlexNet提取特征4096 维用 SVM 对特征进行多类别分类用线性回归对候选框进行边界框精调。2Fast R-CNN实现了第二阶段完全使用深度学习但第一阶段依旧使用了SS算法辅助 结构大致如上图所示3Faster R-CNN真正实现端到端训练在 Fast R-CNN的基础上用RPN代替了传统的SS并使得区域建议和检测网络可以共享特征图实现了端到端的整体模型。整体结构图如下Fast R-CNN检测头即Fast R-CNN中的展平、全连接层、并联输出层、分类分支以及回归分支。4 Mask R-CNN 将目标检测模型扩展到实例分割领域在 Faster R-CNN的基础上增加了ROI Align放在实例分割模型部分详细介绍。5Cascade R-CNN 解决训练时使用的IoU阈值与推理时产生的候选框质量不匹配的问题设计了一个串联的、IoU阈值逐级递增的检测头序列实现了对候选框质量的渐进式优化。如第一级IoU阈值设为0.5对经过阈值的边界框进行初步回归提升整体质量然后再通过第二级IoU阈值比第一级略高如设为0.6经过阈值的边界框得到进一步调整第三级IoU阈值设为0.7或更高。由阈值逐渐递增的检测头级联可以实现候选框质量越高对应的IoU阈值越高。6其他模型R-FCN通过用位置敏感图代替ROI Pooling后边的全连接层减少了计算量共享了参数大大提升了计算效率将经过主干网络后的特征图进行降维然后通过两个并行的1*1的卷积层得到位置敏感得分图和位置敏感回归图位置敏感得分图输出通道数为k*k*(C1)其中k*k是每个ROI的子区域将被划分为的子区域的个数C为目标类别数加上背景为C1类。位置敏感回归图输出通道数为4*k*k。然后再进入位置敏感的池化层在这一步中将候选框也划分为k*k个对于位置为i,j的子区域只考察与之相对位置相同的通道数的值并进行平均池化最后可以得到C1个k*k的得分图和4个k*k的回归图比如对于某个候选框的左上角部分只考察位置敏感图中代表左上角的通道。最后将k*k个数据平均作为最终得分偏移量。FPNFeature Pyramid Network解决多尺度目标识别问题尤其是提升小目标检测的性能。设计思想是高效融合高低层特征让各层的特征图都既具有高层语义也具有低层细节。实现方式为“自顶向下横向连接”。参考论文https://arxiv.org/abs/1612.03144如图假设提取的特征共有三层分别记为C2,C3,C4先从最深层的C4开始将其通过一个1*1卷积层调整其通道数默认为256得到初始的P4。然后将P4上采样得到一个与C3空间维度相同的特征图将C3也通过1*1卷积层调整通道数后与其相加然后通过一个3*3的卷积消除“棋盘格效应”后作为P3如此进行下去可以得到P4、P3、P2这样3个层级的特征图都是既具有高层语义也具有低层细节且每个层级的特征图将对应不同尺度的目标检测人物高层对应大尺度目标低层对应小尺度目标并会根据对应层级设计Anchor的大小。在ROI Pooling以及后面的检测中都根据目标大小的不同选择合适的特征图进行计算。优缺点总结两阶段法实现目标检测可以实现更高的精度在面对不同尺度的目标时都能有较好的检测结果并且方便对各个阶段进行优化和调整缺点是计算复杂度较高推理时间较长时效性不够好并且对硬件资源有一些限制。适合对精度要求特别高的场合不适用于对实时性要求较高以及轻量级设备部署。但现在单阶段检测方法也能有比较好的精度了二单阶段法One Stage直接从输入图像生成目标类别和边界框预测结果。单阶段法将目标检测任务转化为一个密集回归任务省去了ROI提取这一步而是对所有区域进行判断得到每个区域的类别概率以及边界框偏移量等。以经典模型的发展历程来梳理单阶段目标检测方法的技术演进。YOLO v1首个端到端目标检测模型全局视野建模回归任务统一没有单独的分类分支全都通过回归输出结构输入448*448*3-卷积层特征提取-全连接层回归-输出张量7*7*30- NMS -最终结果输入部分将输入图像进行网格划分划分为S*S的网格论文中S7每个网格单独预测中心落在自己网格内的目标避免多网格重复预测。输出张量输出维度为7*7*30对应于每一个网格输出30维向量包含以下内容B*5个边界框相应参数x, y, w, h, C。B表示每个网格预设的边界框个数类似anchor的个数论文中B2。其中x, y, w, h的含义类似两阶段法中的含义但增加了一些约束使得更新后的中心点仍落在该网格内如x sigmoid(t)j将原本的偏移比例通过sigmoid函数映射到[0,1]C是置信度C P(obj) * IOU即网格内存在目标的概率乘IOU这个置信度同时考虑了目标存在与边界框预测精确度的关系。C(class)个类别概率pc P(Class c | obj )损失函数YOLOv1采用的损失函数为加权MSE同时考虑了有目标边界框中心损失、有目标边界框长宽损失取算数平方根以平衡对大小框误差的敏感度差异、有目标边界框置信度损失、无目标边界框置信度损失、类别预测损失。其中λcoord 5,为了提升坐标回归损失的优先级λnoobj 0.5用于降低无目标边界框置信度损失的权重平衡正负样本的贡献因为无目标的样本占大多数。commentYOLO v1首次实现了单阶段的目标检测模型并且推理速度比两阶段方法提升了15倍以上但从模型结构和数据处理方面看还有许多改进的空间不过这个思想是很具有启发性的。SSDSingle Shot MultiBox Detector解决YOLO v1的尺度鲁棒性问题结构与YOLOv1基本一样在YOLO v1的基础上骨干网络用了VGG16并选取了6个不同层级的特征图以满足多尺度的要求并为不同层级的特征图配置了不同大小的先验框也就是Anchor。计算先验框的尺度公式为其中m为选取的特征图的总数论文中为6Smin 0.2Smax 0.9此外还为每个特征图额外添加一个默认尺度Sk以增强对中尺度目标的检测计算公式如下难负样本挖掘为解决正负样本不均衡的问题先计算所有负样本的损失然后只选取损失最大的那些样本保证负样本与正样本的比例为 3:1只使用这些难负样本参与训练提升模型对目标的识别能力。commentSSD的思路像是融合了YOLO v1和RPN的一些想法沿用了YOLO v1端到端的处理方法但在设立不同尺度的Anchor时没有像RPN一样设置固定大小而是根据特征图的层级不同设计适配的Anchor并且SSD在模型中又将类别预测与边界框回归分成了两个预测头来处理在对边界框的预测上采取了预测偏移量而非直接回归得到边界框坐标的方式。虽然对Anchor的处理比RPN好但依旧不够灵活需要手动调整才能达到更好的效果。这样根据特征图层级适配不同Anchor的想法可能为后面的FPN提供了灵感YOLOv2在结构上YOLO v2与YOLO v1相比没有什么改动但在各个环节上都进行了一些改进Anchor选择上首先YOLO v2引入了Anchor并在选定Anchor尺寸的做法上进行了改进不是像SSD一样选取固定尺寸而是通过kmeans聚类的方式选定Anchor的尺寸避免了手动调整参数的麻烦并且能和目标尺寸更接近。引入BNBatch Normalization层在特征提取网络部分YOLO v2设计了新的骨干网络Darknet-19并在每个卷积层和激活函数之间增加了BN层加速了模型的收敛减少了过拟合风险缓解了梯度消失问题。BN层对输入进行标准化处理使得均值0方差1。保证输入分布稳定同时为保留网络的表达能力主要是非线性表达的能力因为标准化后的数据近似对应激活函数的线性部分引入了两个可学习参数缩放因子γ和平移因子β最终输出如下在训练过程中除了根据每个batch计算统计均值和方差外还维护移动平均均值和移动平均方差。在推理过程中直接以移动平均均值和移动平均方差作为输入样本的均值和方差并使用训练好的γ和β。多尺度训练训练过程中每迭代 10 个 batch随机选择输入图像的尺寸320×320、416×416、512×512、608×608 等尺寸均为 32 的倍数适配池化层步长。并且网络输出特征图的分辨率随输入尺寸动态调整如输入 416×416 时输出 13×13 特征图输入 608×608 时输出 19×19 特征图高分辨率输入对应高分辨率特征图专门适配小目标检测。细粒度特征融合YOLOv2将高层特征与中层特征融合补充中层细节。几乎和FPN同时想到的hhh联合训练解决边界框标注数据少的问题。让模型从有边界框标注的“检测数据”中学习定位和识别少量数据从大量的“分类数据”中扩展识别类别的广度。构建了层次分类树WordTree解决了多标签分类和类别语义关系的核心问题即将“分类数据”中的大量类别与“检测数据”中的少量类别构建在一个类别层次中。并且为适应WordTree用条件概率替代了softmax因为softmax中要求各类别互斥。RetinaNetRetinaNet的结构很清晰更好地吸收了FPN的思想整体结构为ResNet - FPN -分类和回归的检测头- NMS.核心创新是提出了Focal Loss焦点损失解决了正负样本极不平衡的问题不同于SSD中进行难负样本挖掘依赖人工阈值而是实现了根据样本难易程度自动调整损失权重。其中pt为判断为真实类别目标的概率1-pt^γ是难度因子对于易分样本pt接近于1则难度因子接近于0损失被抑制难分样本则相反α_t是权重因子是为了进一步调整政府样本权重避免难度因子的影响过大。YOLOv3常用的工业级模型的基础YOLO v3并没有颠覆性的创新而是在各个环节进行了一些改进使得精度和速度都能满足工业应用的要求骨干网络使用Darknet-53在Darknet-19的基础上加入了残差连接同时也引入了FPN吸收了RetinaNet的成功经验Anchor增加至9个用BCE 替代 Softmax相当于把一对多的分类问题变成了多个一对一的分类问题每个类别单独预测并且避免了softmax中类别互斥的问题。相比于YOLO v2的WordTree方案虽然可分类的类别没有那么多但这个方案无需依赖语义层级标注成本降低泛化性强因此更适合工业应用场景。CornerNet首个无Anchor的检测模型FCOSFully Convolutional One-Stage Object Detection全卷积、端到端、无锚框的单阶段模型核心思想是以像素而非锚框作为单元进行预测。结构依旧是骨干网络- FPN -检测头- NMS。主要的创新在检测头处使用了全卷积、参数共享的网络作为预测头舍弃了全连接层。检测头由 4 层 3×3 卷积每个卷积后接 ReLU 激活组成基础特征提取层之后分支为三个并行输出层分类分支1 层 3×3 卷积 Sigmoid 激活输出通道数 类别数预测每个像素属于某类的概率回归分支1 层 3×3 卷积 Exp 激活确保输出为正输出通道数 4对应 l, t, r, b预测像素到目标四条边的距离中心性分支1 层 3×3 卷积 Sigmoid 激活输出通道数 1预测像素是否位于目标中心区域核心创新点。用GT表示ground truth则 l, t, r, b含义如下由定义可知l, t, r, b均大于0因为只针对“正样本”计算l x - GT_left像素到 GT 左边界的水平距离t y - GT_top像素到 GT 上边界的垂直距离r GT_right - x像素到 GT 右边界的水平距离b GT_bottom - y像素到 GT 下边界的垂直距离中心性分支预测每个正样本像素的 “中心性得分”0-1 之间得分越高表示像素越靠近目标中心回归的边界框越可靠中心性分支是 FCOS 解决 “密集预测中无效样本过多” 的关键。中心性得分的计算公式如下则像素越靠近目标中心中心性得分越高越靠近边界得分越低。推理时将分类得分与中心性得分相乘作为最终置信度过滤掉远离目标中心的低质量预测框大幅减少 NMS 处理的冗余框数量同时提升检测精度。越靠近中心的像素对于类别识别也越有效吗如果是一些特征在边缘处比较明显的目标呢损失函数分类损失回归损失中心性损失的加权和。其中N_pos为正样本像素数量论文中λ1 1λ2 1。Loss_cls计算用的是Focal LossLoss_center-ness计算用的是BCELoss_reg为IoU-aware Smooth L1 Loss这是在Smooth L1中引入IoU作为损失权重的一种方法引导模型关注更接近真实的框comment好像技术的发展都是从非端到端到端到端的而且端到端的模型通常性能更好我觉得像素级的预测能成功很大程度是因为骨干网络得到了改进可以更好地对像素级的语义进行提取。这个模型也为后面的模型提供了新思路。CenterNet(一种极简的无Anchor目标检测思路)核心思路为中心点预测宽高回归就可以确定唯一的检测框。结构上依旧遵循以往的范式但是不需要NMS后处理只需要更简单的后处理。主要改动在FPN和检测头处。转置卷积Transposed Convolution 跳跃连接替代FPN因为最终预测的是目标的中心点所以需要将骨干网络输出的特征图上采样至与输入图像相同的大小使得原图像中的像素与特征图上的像素一一对应转置卷积类似于“反卷积”是通过在特征图上填充空白像素然后用卷积核滑动得到放大后的特征图比插值精度高能较好地保留特征。计算公式为其中Hin,Win表示输入特征图的高/宽Hout,Wout表示输出特征图的高 / 宽k表示卷积核大小kernel_sizes为stride也就是上采样倍数p为paddingop为输出填充output_padding用于微调输出尺寸默认 0。跳跃连接融合骨干网络不同层级的特征类似FPN的作用。检测头三分支并行预测由 3 个并行的 1×1 卷积分支组成无复杂卷积层与FCOS相比结构更简单分别完成 “中心点检测”“尺寸回归”“偏移量修正” 三大任务。中心点热图预测每个目标生成一个2D高斯核计算热力图每个通道存放对应一个类别的热力图。尺寸回归预测每个中心点对应的目标宽高偏移量修正骨干网络会产生量化误差如下采样时会把小数的像素舍为整数该分支预测此量化误差以修正中心点坐标。后处理不需要NMS因为不是直接对整个框进行回归。只需要对中心点坐标做非极大值抑制并取置信度较高的几个点作为目标中心最后结合预测宽高和预测偏移量生成边界框即可。损失函数中心点预测、宽高预测和偏移量预测损失的加权和宽高预测和偏移量预测损失都使用L1损失中心点预测使用改进的Focal Loss用β对负样本做进一步抑制YOLOv4在保持速度的情况下优化了准确度YOLO v4 遵循 “Backbone骨干网络→ Neck特征融合→ Head检测头→ 后处理 ” 的单阶段检测架构。在各个环节都融入了cv领域当时一些先进的技术从而达到了性能的提升YOLO v4的产生是因为其他领域的一些进步数据增强YOLOv4的数据增强更彻底除了一些常规的数据增强环节如随机翻转、色域扭曲HSV 调整、随机缩放 / 裁剪等还增加了一些特殊的数据增强方式如Mosaic 四图拼接随机选取 4 张图像按随机比例拼接成一张新图像同时调整 GT 框坐标增强了小目标样本量并丰富了背景多样性MixUp 图像混合将两张图像按随机权重叠加同时融合 GT 框增强了模型对遮挡和模糊环境的鲁棒性。骨干网络CSPDarknet53。基于 CSPNetCross Stage Partial Network 思想改进CSPNet:除此之外还用 Mish 激活函数替代 Leaky ReLU。Mish x × tanh (softplus (x)) x * tanh(ln(1 e^x))梯度更平滑高维特征提取能力更强使用 CmBNCross Mini-Batch Normalization替代传统 BN。CmBN是在单个训练批次内跨越多个小步骤来累积统计信息从而模拟使用更大批次进行归一化的效果。更适宜小批次训练。特征融合SPPSpatial Pyramid Pooling空间金字塔池化 PANetPath Aggregation Network路径聚合网络SPP增加了模型的感受野优化了对大目标物体的检测精度PANet代替FPN对遮挡目标和小尺度目标友好。SPP用SPP可以有效获取多尺度物体的信息PANet在FPN的基础上增加了一个自底向上的增强路径并把FPN中的相加Add变为了拼接Concatenate损失函数CIoU Loss 1 - CIoU同时考虑边界框的重叠面积、中心点距离和宽高比。上式中的ρ(b,b^gt)^2表示预测框与GT框中心点的欧氏距离平方c为包裹预测框和 GT 框的最小矩形的对角线长度v为衡量预测框与 GT 框的长宽比差异α是平衡因子。CommentYOLO v4的成功得益于cv领域的快速发展相当于是融合了当时各个最先进的算法得到的一个性能较好的模型。DETRDetection Transformer将Transformer引入目标检测结构为“Backbone → Transformer Encoder → Transformer Decoder → 预测头 → 集合损失”骨干网络ResNet输出的特征图进行 1×1 卷积降维2048→256得到通道数为 C256 的特征图适配 Transformer 的输入维度位置编码用正弦位置固定编码并将位置编码信息与上述展平后的特征相加可以保留原特征图的空间信息位置编码方式可改进Transformer Encoder融合编码信息后的特征序列作为编码器的输入将每个特征元素都作为一个Query其他所有特征元素都作为Key。通过全局注意力机制可以捕捉全局的相关信息有利于对遮挡、密集目标的检测同时通过多头注意力机制可以捕捉不同维度的特征但是都是对最后一层的特征图进行也许对不同层级的特征图都做此操作会有更好效果Transformer Decoder: Decoder的输入为一组查询默认100个每个查询对应一个潜在目标通过与 Encoder 输出的全局特征交互逐步生成目标的类别和边界框多余的查询会被预测为背景类预测头两个并行的全连接层。分别输出类别预测与边界框预测。匈牙利匹配在训练时为预测集合100 个预测框与 GT 集合M 个 GT 框M≤100找到最优的一对一匹配关系确保每个 GT 框对应一个唯一的预测框。匹配成本为其中L_cls为类别损失为交叉熵L_box为边界框损失为L1GIoU集合损失Set Loss匹配完成后仅对匹配成功的预测框计算损失未匹配的预测框仅计算背景类别的分类损失。Comment:可以预见的是这类模型会随着Transformer的演进而发生演进这个思想的巧妙之处在于把特征图展平后也看成是序列信息作为transformer的输入以此捕捉全局特征竟然也取得了很好的效果打破了对图像是矩阵的固有认知还是挺有启发性的。不过这个初步模型的推理速度比较慢并且也需要较多的硬件资源。此外DETR也提供了无锚框设计的一种新思路就是用集合预测代替锚框实现位置覆盖。YOLO v5部署简单、易落地支持Pytorch提供多个量级的版本可用YOLOXYOLOFCOS将YOLO与无锚框检测融合自适应样本选择SimOTA 减弱了对尺度分配的依赖性对每个真实框GT在所有特征图中筛选出 “回归损失最小的 Top-K 个像素” 作为候选正样本计算候选样本与 GT 的 IoU自适应选择 “使正样本总 IoU 最大” 的样本集确保每个 GT 对应最优正样本负样本自动筛选未被选为正样本的像素即为负样本无需人工设定阈值上述梳理基本基于时间顺序至此单阶段目标检测模型的主要技术路线都已初步形成以早期YOLO为代表的Anchor辅助的目标检测模型以FCOS和CenterNet为代表的Anchor-Free目标检测模型以DETR为代表的引入Transformer架构的目标检测模型以及一些将不同思路融合的模型出现。后续模型的发展主要有将Anchor-Free与YOLO进一步融合的YOLO系列对DETR进一步改进的Transformer架构的模型最新的想法是用大模型实现目标检测。YOLO系列YOLOv8-v11基本延续了YOLOX的思路将Anchor-Free与YOLO进一步融合同时在特征提取、特征融合、后处理等方面做了一些改进进一步提高了推理速度。并且从v8开始支持多任务不只是目标检测。YOLOv12注意力机制代替CNN作为特征提取的关键在骨干网络中引入了区域注意力模块将特征图划分为不同区域并分别计算注意力引入了R-ELAN残差高效层聚合网络增加了块级残差连接并在残差路径上引入了可学习的参数进行缩放并将原始 ELAN 的 切分 - 处理 - 拼接 流程重构为“压缩-切分-处理-拼接-扩展”减少计算量。YOLOv13引入超图计算。这个超图到底是个什么东西有点没看懂HyperACE超图自适应关联增强机制将传统的二元相关性建模扩展到全局高阶关联建模使模型能捕捉物体间复杂的多对多关系而非仅局部或成对关系。比Transformer捕捉更多潜在的关系而且能捕捉显式的高阶的多对多关系FullPAD全流程聚合与分发范式构建全局协同的信息流网络将 HyperACE 增强后的特征通过三条并行路径分发至网络各层级。DETR改进RT-DETR首个实时端到端 Transformer 检测器对编码器的改进是使用了高效混合编码器Hybrid Encoder包括AIFI 模块仅对最高层应用TransformerCCFM模块用类似 PANet 的结构实现特征融合对解码器的改进是使用了可变形解码器Deformable Decoder引入 稀疏可变形注意力提高了计算速度。其他开放词汇目标检测让模型在海量“图像-文本”对中自主学习视觉概念与语言描述之间的通用对齐。GLIP将检测框与短语对齐统一了目标检测和视觉定位任务。Grounding DINO 用跨模态编码器将语言与图像统一融合了基于Transformer的先进检测架构与语言建模实现了极高的零样本精度。YOLO-World基于YOLO架构大幅提高了开放词汇检测的推理速度将文本编码作为模型参数提前嵌入神经架构搜索NAS应用到目标检测领域如YOLO-NAS通过 AutoNAC 技术自动设计网络结构实现精度与速度的突破性平衡。NAS的想法可以应用到更多领域不止目标检测领域用一个统一的框架实现所有的视觉定位任务如Rex Omini统一视觉任务的输出表示都以坐标的形式输出本质还是视觉模型VisionLLM系列在LLM的基础上将图像特征映射到到文本空间LLM输出Token时会额外输出一组视觉Token依赖LLM强大的理解能力响应复杂、开放的指令。