Google 研究團(tuán)隊(duì)開源在 Tensorflow 中進(jìn)行語義圖像分割(Semantic Image Segmentation)模型 DeepLab-v3+,包括 Google Pixel 2 和 Pixel 2XL 手機(jī)上的人像模式(Portrait Mode),以及 YouTube 為影片實(shí)時(shí)更換背景功能,都是這項(xiàng)技術(shù)的應(yīng)用。

Google 研究軟件工程師 Liang-Chieh Chen 以及 Yukun Zhu 表示,語義圖像分割的主要目的是為每個(gè)像素指定語義標(biāo)簽,例如路、天空、人或是狗等物體,不少的程序需要這樣的功能,像是合成淺景深效果(Synthetic Shallow Depth-of-field)效果,應(yīng)用在手機(jī) Pixel 2 和 Pixel 2XL 上提供的人像模式(Portrait Mode),能自動模糊人物的背景,作出類似單鏡頭反光相機(jī)的景深效果。
另外,在多數(shù)攝影 App 都會提供的實(shí)時(shí)影像分割(Video Segmentation),例如最近 YouTube 發(fā)表的新功能,為影片換背景的功能,也是語義影像分割的應(yīng)用。
DeepLab-v3+ 在 Tensorflow 上進(jìn)行,使用部署于服務(wù)器端的卷積神經(jīng)網(wǎng)絡(luò)(CNN)骨干架構(gòu),以獲取最佳的結(jié)果。除了代碼之外,研究團(tuán)隊(duì)也同時(shí)公開了 Tensorflow 模型訓(xùn)練以及評估程序,以及使用 Pascal VOC 2012 與 Cityscapes 資料集訓(xùn)練的模型。
DeepLab-v3+ 技術(shù)是基于三年前的 DeepLab 模型,期間改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)特征萃取器、物體比例塑造模型以及同化前后內(nèi)容的技術(shù),再加上進(jìn)步的模型訓(xùn)練過程,還有軟硬件的升級,從 DeepLab-v2 到 DeepLab-v3,直到現(xiàn)在發(fā)表的 DeepLab-v3+,效果一代比一代好。
DeepLab-v3+ 是由 DeepLab-v3 擴(kuò)充而來,研究團(tuán)隊(duì)增加了解碼器模組,能夠細(xì)化分割結(jié)果,能夠更精準(zhǔn)的處理物體的邊緣,并進(jìn)一步將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在空間金字塔池化(Spatial Pyramid Pooling,SPP)和解碼器上,大幅提升處理物體大小以及不同長寬比例的能力,最后得到強(qiáng)而有力的語義分割編碼解碼器網(wǎng)絡(luò)。

Liang-Chieh Chen 以及 Yukun Zhu 特別提到,隨著軟硬件的升級,建構(gòu)在卷積神經(jīng)網(wǎng)路上的現(xiàn)代語義圖像分割功能,可以達(dá)到的水準(zhǔn)已經(jīng)遠(yuǎn)遠(yuǎn)超過5年前。