默认锚框

YOLOv5的锚框设定是针对COCO数据集中大部分物体来拟定的,其中图像尺寸都是640×640的情况。

anchors参数共3行:

第一行是在最大的特征图上的锚框

第二行是在中间的特征图上的锚框

第三行是在最小的特征图上的锚框

在目标检测中,一般希望在大的特征图上去检测小目标,因此锚框设定较小。一般希望在小的特征图上去检测大目标,因此锚框设定较大。

YOLOv5的作者发现相同类别的目标实例具有相似的gt长宽比,因此从数据集中预先准备几个几率比较大的bounding box,再以它们为基准进行预测。

思考一个问题:我们自己的数据集和COCO数据集中的物体情况相似程度如何呢?默认anchors还能否适应我们的需求呢?

很显然是不能的!

因此YOLOv5中提出了一个自适应锚框的思想,根据目标的特征图上的分布情况自适应地调整锚框的大小和尺度。

思想:传统的目标检测方法通常使用固定大小和尺度的锚框来进行目标检测,但这会导致在处理不同尺度、不同大小的目标时效果不佳。而自适应锚框的思想是在目标检测网络中引入一些机制,使得模型能够根据目标在特征图上的分布自动适应地调整锚框的大小和尺度。

  • K-means聚类算法

在无标签数据集上执行的最直接任务之一,是在数据集中找到彼此相似的数据组。

K-means存储用于定义聚类的k个质心。如果哪一个点离着哪个质心最接近,则该点被视为位于哪个聚类中。

K-means通过交替进行下面两步来找到最佳质心:

1、根据当前质心将数据点划分到某聚类中

2、根据当前数据点计算聚类的质心

先初始化k个质心,将各个点划分到现有的簇,然后将所有簇取平均值确定新的质心,迭代之前的操作。

YOLOv5锚框生成过程:

在YOLOv5模型训练时,默认的做法是它会自动去计算下默认的anchors与你数据集中所有目标的best possible recall,如果小于0.98就会根据你自己数据集的目标去重新聚类生成anchors,反之使用默认的anchors。

具体来说,YOLOv5会首先根据训练集的目标框尺寸信息,选择一个K值,表示聚类的簇数。然后使用K-means或其他聚类算法对目标框的尺寸进行聚类,将相似尺寸的目标框聚到同一个簇中。每个簇的中心点就成为了一个anchor,使用这些重新聚类得到的anchors作为候选框的基准。

通过重新聚类anchor,可以更好地适应当前训练集的目标分布,提高模型的检测性能。但是训练过程中重新聚类anchor是一个耗时的操作。

kmeans_anchor函数: