文章目录

1. 主要思想
2. 具体方法
- 2.1 数据处理方式
- 2.2 网络架构
3. 实验支撑
4. 总结启示
5. 相关文献

paper 原论文的链接
code: 源代码链接

paper全称：SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud

1. 主要思想

通过什么方式，解决了什么问题

当下问题的分析：

传统方法：过滤地面–>聚类其他点的实例–> 手工提取特征–>进行分类
然而存在弊端：

不能很好的一般化应用
pipline的方式可能导致每个阶段误差累计，从而效果差
许多地面消除方法依赖于RANSAC, GP-INSAC,agglomerative clustering. 这些方法都不稳定。

所以作者提出了本文的算法

基本思想：将3D点云投射到前视图上，然后再利用深度学习分割方法获取点的类别。

2. 具体方法

说明怎么解决的，具体设计是什么, 有什么启发性思考（作者的创新点）

2.1 数据处理方式

1. 映射方式：将点的坐标系表示成球坐标的方式，用垂直角度 $\theta$ 和水平角度 $\Phi$ . 如下图公式：

效果图：

计算水平角度和垂直角度，垂直方向等于激光线数；水平角度范围90度，根据投射平面宽度等分。
通道数[x,y,z,i,r], 其中r为 $\sqrt(x^2+y^2+z^2)$ 深度信息
v2版本添加了一个mask通道，用来表示该像素中是否含有点。

2. 实际的映射

激光的每个水平线束应该投射为一行，但是实际上每一水平线束实际的垂直角度是不一致的(由于车的抖动导致的)，所以一束水平线束不能被投影到一行里，所以作者实际根据每一个点是那个线束发出的来进行投影的，而不是根据公式计算垂直角度进行投射的，而KITTI数据集的排列是按照线束进行排列的，一个线束的点挨在一起。所以可以很好滴实现这个操作，（而我们的点云录制过程每个点没有线束标记，所以不能很好的投射）

3.利用3D场景构建扩增数据集
作者采用DeepGTAV（用Script Hook V as plugin），构建3D场景下的点云扫描数据。

为了使得模拟场景切合KITTI，作者添加了一些噪声，使得和KITTI数据接近

2.2 网络架构

1. 整体网络结构

2. 主要firelayer模块
使用的主干网络是squeezeNet，主要模块是FireModule

3. CRF模块
该模块使用CRF进行分割校准

关键点

使用SqueezeNet网络进行特征提取时，只进行横向的卷积采样；也就是下采样的时候在宽度上进行下采样，而不在高度上。因为输入图片高度和宽度比太小，所以不在高度上采样。
CRF使用的是RNN方式进行模拟的，（未了解）。
fire module结构可以学习一下。

3. 实验支撑

记录一些关键实验的结论分析，具有启发性的实验和结论

性能对比：

instance-level是采用传统方法DBSCAN

速度对比：

通过虚拟场景点云数据的增广效果：

4. 总结启示

针对中心思想和实验结论的总结和扩展思考
扩展思考 : 也就是用自己已有的知识或者自己的“土话”，重新理解paper（费曼学习法的精髓-便于记忆和举一反三的应用）

模型设计方面

根据数据特性，只下采样宽度

应用方面:

可用于障碍物检测（可能只能针对实体障碍物), 可能先对投影数据进行膨胀，将护栏这种障碍物变成密集障碍物，然后再分割。将空隙中的障碍物变成护栏的时候消除其像素特征。
采用前视图识别路沿如何（不会遮挡地面），可以达到快速的识别

5. 相关文献

主要的比较贴近的文献,关键性文献

DeepGTAV
scripthook

[论文阅读] SqueezeSeg V1

文章目录

1. 主要思想

2. 具体方法

2.1 数据处理方式

2.2 网络架构

3. 实验支撑

4. 总结启示

5. 相关文献

最新关注

热文推荐

2.4 PE结构：节表详细解析

“12306” 的架构到底有多牛逼？

Eolink征文活动中心 — 一站式API协作平台

一文详细了解大数据离在线混部架构模型

在线客服系统源码开发实战总结：官网首页视频大背景循环播放效果实现

毕业一年，收获朝九晚五月薪18k工作，选择比努力更重要

[论文阅读] SqueezeSeg V1

文章目录

1. 主要思想

2. 具体方法

2.1 数据处理方式

2.2 网络架构

3. 实验支撑

4. 总结启示

5. 相关文献

相关文章

最新关注

热文推荐