11 U-Net之结构解析

在上一篇文章中,我们对 VGG 的模型评估进行了深度剖析,了解了其在图像分类任务中的表现和优缺点。接下来,我们将聚焦于 U-Net 这一深度学习架构,解析其独特的结构和设计理念。U-Net 主要用于图像分割任务,特别是在医学图像分析中的应用表现尤为突出。

U-Net 结构概述

U-Net 是由 Olaf Ronneberger 等人在 2015 年提出的,旨在解决生物医学图像分割问题。其名称源于网络的形状——一个 “U” 形结构。U-Net 主要由以下两个部分构成:

  1. 收缩路径(编码器)
  2. 扩展路径(解码器)

1. 收缩路径(Encoding Path)

收缩路径又称为编码器,由一系列的卷积层和 max pooling 层组成。每个卷积块通常包括两个卷积操作,后接一个 ReLU 激活函数和一个 max pooling 层。每一次的 max pooling 操作都会降低特征图的空间尺寸,同时增加特征的深度。这样不仅能提取更高层次的特征,还能使网络更加鲁棒。

  • 卷积层:利用 $3 \times 3$ 的卷积核进行特征提取。
  • 池化层:使用 $2 \times 2$ 的最大池化层降低特征图大小。

2. 扩展路径(Decoding Path)

扩展路径或解码器的作用是通过上采样逐步恢复空间分辨率。为了更好地实现这一点,U-Net 引入了 跳跃连接(skip connections),使得编码器的特征图能够与解码器相应层的特征图进行拼接。这种机制在一定程度上解决了在上采样过程中可能出现的特征信息丢失问题。

  • 上采样层:使用 conv_transpose 或者双线性插值进行上采样。
  • 拼接操作:通过连接编码器和解码器中相应层的特征图,确保高分辨率信息能够有效传递。

U-Net 结构实例

以下是一个简单的 U-Net 模型结构示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
import tensorflow as tf
from tensorflow.keras import layers, Model

def unet_model(input_size=(256, 256, 1)):
inputs = layers.Input(input_size)

# Encoding path
c1 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(inputs)
c1 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(c1)
p1 = layers.MaxPooling2D((2, 2))(c1)

c2 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(p1)
c2 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(c2)
p2 = layers.MaxPooling2D((2, 2))(c2)

c3 = layers.Conv2D(256, (3, 3), activation='relu', padding='same')(p2)
c3 = layers.Conv2D(256, (3, 3), activation='relu', padding='same')(c3)
p3 = layers.MaxPooling2D((2, 2))(c3)

# Bottleneck
c4 = layers.Conv2D(512, (3, 3), activation='relu', padding='same')(p3)
c4 = layers.Conv2D(512, (3, 3), activation='relu', padding='same')(c4)

# Decoding path
u5 = layers.Conv2DTranspose(256, (2, 2), strides=(2, 2), padding='same')(c4)
u5 = layers.concatenate([u5, c3])
c5 = layers.Conv2D(256, (3, 3), activation='relu', padding='same')(u5)
c5 = layers.Conv2D(256, (3, 3), activation='relu', padding='same')(c5)

u6 = layers.Conv2DTranspose(128, (2, 2), strides=(2, 2), padding='same')(c5)
u6 = layers.concatenate([u6, c2])
c6 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(u6)
c6 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(c6)

u7 = layers.Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same')(c6)
u7 = layers.concatenate([u7, c1])
c7 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(u7)
c7 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(c7)

outputs = layers.Conv2D(1, (1, 1), activation='sigmoid')(c7)

model = Model(inputs=inputs, outputs=outputs)
return model

model = unet_model()
model.summary()

总结

对于 U-Net,通过结合编码路径的多层次特征和解码路径的逐步恢复,我们获得了在图像分割任务中特别有效的网络结构。U-Net 在医学影像分析中有着广泛的应用,因此可以说它是图像分割领域的基石之一。

在下一篇文章中,我们将深入探讨 U-Net 在实际案例中的应用分析,包括如何在具体数据集上进行训练和评估,敬请期待。

作者

IT教程网(郭震)

发布于

2024-08-12

更新于

2024-08-12

许可协议

分享转发

复习上节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论