HI~歡迎來到數(shù)造云打印平臺!
我們已經(jīng)介紹過很多僅用RGB相機進(jìn)行動作捕捉的研究了,其中大多數(shù)是模擬出骨骼進(jìn)行追蹤,少數(shù)則是通過模擬出的骨骼套上一個粗糙的模型,便可稱為3D模型了。
近日,F(xiàn)acebook AI Reaserch(FAIR)開源了一項將2D RGB圖像的所有人類像素實時映射至3D模型的技術(shù)——DensePose,而且采用的也不是我們經(jīng)常介紹的骨骼追蹤,而是一種十分密集的方案追蹤來構(gòu)建3D模型。
在戶外和穿著寬松衣服的 也表現(xiàn)良好。
還支持多人同時追蹤。
那這個密集如何來理解呢?
對于一般的骨骼追蹤,追蹤的點大多在十到二十個之間,再多也沒有多少實際的效果。而DensePose所追蹤的點一共有336個,密密麻麻全身都是點。(密集恐懼癥退避)
之所以要追蹤這么多的點,是構(gòu)建一個平滑流暢的3D模型所必須的數(shù)據(jù)。
辛苦的付出也是值得的,DensePose無論是在戶外還是多人下都表現(xiàn)良好,還能實時更換場景中人的衣服。
那就來看看他們是怎么做到的吧。
為了讓機器可以學(xué)習(xí),研究人員手動標(biāo)記了5萬張照片中的336個點,光這個步驟就是一個巨大的工程了,如果按部就班的標(biāo)記注釋,不知道要到什么時候完成了。
研究人員將一個人拆分成了24個部分,分別為頭、軀干上部、軀干下部、大臂、小臂、大腿、小腿、手、腳。每個部分標(biāo)記14的點。
對于頭部、手部、腳部都由人手動標(biāo)記。同時還要求注釋者在標(biāo)記的時候標(biāo)出被衣物掩蓋住的部位,比如寬松的裙子。
這些工作做完后進(jìn)入第二階段,研究人員對每一個展開部位區(qū)域進(jìn)行采樣,會獲得6個不同的標(biāo)記圖,提供二維坐標(biāo)地圖使標(biāo)記者更直觀的判斷哪個標(biāo)記是正確的。
最后再將平面重新組合成3D模型,進(jìn)行最后一步校準(zhǔn)。
這樣兩步下來,研究人員得以高效準(zhǔn)確的獲得了準(zhǔn)確的標(biāo)記。不過在軀干、背部還有 臀部有較大的誤差。
接下來就是深度學(xué)習(xí)的階段了,這時一個好的方案就好比性能優(yōu)越的催化劑。
研究人員采用與Mask-RCNN架構(gòu)的DenseReg類似的方法,構(gòu)成了'DensePose-RCNN'系統(tǒng),還進(jìn)一步開發(fā)使得訓(xùn)練的準(zhǔn)確度提高。首先由外觀粗略的估算像素所在的位置,然后將其與準(zhǔn)確的坐標(biāo)對齊。
DenseReg MaskRCNN的關(guān)鍵點分支中使用相同的體系結(jié)構(gòu),由8個交替的3×3完全卷積和512個通道的ReLU層組成。得益于Caffe2,所產(chǎn)生的架構(gòu)實際上與Mask-RCNN一樣快。
為了降低錯誤率,還訓(xùn)練了一個“教師”網(wǎng)絡(luò)來重建地面,部署它完整的圖像域,產(chǎn)生一個密集的監(jiān)督信號。研究人員將人類監(jiān)督者半自動監(jiān)督和“教師網(wǎng)絡(luò)”進(jìn)行對比,結(jié)果是“教師”完勝。
研究人員還將其方法與SMPLify進(jìn)行了對比,在模型的模擬方面,研究人員的自下而上的前饋方法在很大程度上勝過了迭代的模型擬合結(jié)果。
同時在多人處理時,F(xiàn)CN明顯差于'DensePose-RCNN,再與其他方案比較時優(yōu)勢也十分突出。
最后,整體呈現(xiàn)的效果如開頭所講,能夠處理大量遮擋物,成功的模擬出了衣服后面的人,但有一點需要注意,那就是所有人都是通過固定的曲率擬合的。而且在多人狀況下表現(xiàn)十分良好。
來源:of week
編輯:董強
相關(guān)推薦
全部評論 0
暫無評論