谷歌最新語義圖像分割模型DeepLab-v3+現(xiàn)已開源

來源:開源中國社區(qū) 2018-03-16 15:04 http://www.yyykp.com/

　　Google 研究團(tuán)隊(duì)開源在 Tensorflow 中進(jìn)行語義圖像分割（Semantic Image Segmentation）模型 DeepLab-v3+，包括 Google Pixel 2 和 Pixel 2XL 手機(jī)上的人像模式（Portrait Mode），以及 YouTube 為影片實(shí)時(shí)更換背景功能，都是這項(xiàng)技術(shù)的應(yīng)用。

　　Google 研究軟件工程師 Liang-Chieh Chen 以及 Yukun Zhu 表示，語義圖像分割的主要目的是為每個(gè)像素指定語義標(biāo)簽，例如路、天空、人或是狗等物體，不少的程序需要這樣的功能，像是合成淺景深效果（Synthetic Shallow Depth-of-field）效果，應(yīng)用在手機(jī) Pixel 2 和 Pixel 2XL 上提供的人像模式（Portrait Mode），能自動模糊人物的背景，作出類似單鏡頭反光相機(jī)的景深效果。

　　另外，在多數(shù)攝影 App 都會提供的實(shí)時(shí)影像分割（Video Segmentation），例如最近 YouTube 發(fā)表的新功能，為影片換背景的功能，也是語義影像分割的應(yīng)用。

　　DeepLab-v3+ 在 Tensorflow 上進(jìn)行，使用部署于服務(wù)器端的卷積神經(jīng)網(wǎng)絡(luò)（CNN）骨干架構(gòu)，以獲取最佳的結(jié)果。除了代碼之外，研究團(tuán)隊(duì)也同時(shí)公開了 Tensorflow 模型訓(xùn)練以及評估程序，以及使用 Pascal VOC 2012 與 Cityscapes 資料集訓(xùn)練的模型。

　　DeepLab-v3+ 技術(shù)是基于三年前的 DeepLab 模型，期間改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)特征萃取器、物體比例塑造模型以及同化前后內(nèi)容的技術(shù)，再加上進(jìn)步的模型訓(xùn)練過程，還有軟硬件的升級，從 DeepLab-v2 到 DeepLab-v3，直到現(xiàn)在發(fā)表的 DeepLab-v3+，效果一代比一代好。

　　DeepLab-v3+ 是由 DeepLab-v3 擴(kuò)充而來，研究團(tuán)隊(duì)增加了解碼器模組，能夠細(xì)化分割結(jié)果，能夠更精準(zhǔn)的處理物體的邊緣，并進(jìn)一步將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在空間金字塔池化（Spatial Pyramid Pooling，SPP）和解碼器上，大幅提升處理物體大小以及不同長寬比例的能力，最后得到強(qiáng)而有力的語義分割編碼解碼器網(wǎng)絡(luò)。