全球人工智能領(lǐng)域最具影響力的大會(huì)CVPR近日宣布,將2022年“最佳學(xué)生論文”獎(jiǎng)?lì)C給同濟(jì)大學(xué)研二學(xué)生陳涵晟等人,這是二十多年來首次有中國高校學(xué)生獲此殊榮。該論文是陳涵晟在阿里達(dá)摩院實(shí)習(xí)期間的成果,融合了傳統(tǒng)幾何推理和深度學(xué)習(xí),提出了計(jì)算3D物體位姿的新方法,能從單張圖片計(jì)算出3D物體在真實(shí)世界里的位置和朝向,有望成為自動(dòng)駕駛、機(jī)器人等技術(shù)發(fā)展的理論動(dòng)力。
CVPR(國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)是人工智能領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,今年共收到8161篇論文投稿,最終錄取2064篇,只評(píng)出最佳論文和最佳學(xué)生論文各1篇。CVPR的最佳論文和最佳學(xué)生論文常被視作AI技術(shù)風(fēng)向標(biāo),誕生了ResNet等一系列標(biāo)志成果。
CVPR早在2001年就設(shè)立最佳學(xué)生論文獎(jiǎng),今年首次發(fā)給中國高校學(xué)生。獲獎(jiǎng)?wù)撐摹禘Pro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 》來自同濟(jì)大學(xué)汽車學(xué)院和阿里巴巴達(dá)摩院,作者分別是陳涵晟、王丕超、王帆、田煒、熊璐、李昊。

獲獎(jiǎng)證書
論文研究的是3D視覺領(lǐng)域經(jīng)典問題,通過單張圖像求解3D物體在真實(shí)世界里的位姿(位置和朝向)。這一技術(shù)方向應(yīng)用前景廣闊,是自動(dòng)駕駛、機(jī)器人等行業(yè)的基礎(chǔ)技術(shù)。比如在自動(dòng)駕駛中,只有先計(jì)算出周邊車輛的位姿,判斷對(duì)方究竟是要加速、剎車還是變道,己方車輛才能做出對(duì)應(yīng)操作,計(jì)算不準(zhǔn)或者過慢都有可能引發(fā)事故。

3D物體的位姿計(jì)算示意
通過單張圖像定位3D物體極具挑戰(zhàn)性。一般有兩類解決方法:一類是基于幾何推理,例如PnP算法,可解釋性好、泛化能力強(qiáng),但需要提前知道物體的尺寸和形狀,具有較大的局限性;另一類是深度學(xué)習(xí)方法,可預(yù)測3D物體的位置坐標(biāo)和朝向角度,但在小規(guī)模數(shù)據(jù)集上容易過擬合。
獲獎(jiǎng)?wù)撐奶岢龅男路椒‥Pro-PnP,創(chuàng)造性地引入概率分布,將幾何推理和深度學(xué)習(xí)兩種方法無縫銜接,形成了一個(gè)端到端的易用模型,可以快速估算3D物體的位姿。實(shí)驗(yàn)證明,新模型通用性強(qiáng)、定位準(zhǔn)確,不需要提前知道物體的幾何形狀;更要重的是非常簡潔,效率較高,且具有較好的可解釋性,有望用于自動(dòng)駕駛、機(jī)器人、無人機(jī)、AR等諸多需要通過視覺來估算物體位姿的場景。

EPro-PnP方法示意
據(jù)了解,論文第一作者陳涵晟本碩都就讀于同濟(jì)大學(xué)汽車學(xué)院,目前研究生二年級(jí)在讀,導(dǎo)師為熊璐教授,副導(dǎo)師為田煒助理教授,達(dá)摩院導(dǎo)師為王丕超博士。他的研究方向是計(jì)算機(jī)視覺中的3D物體位姿估計(jì),研一就已在CVPR發(fā)表論文。2021年到阿里達(dá)摩院做研究型實(shí)習(xí)生后,在達(dá)摩院日常研究討論中碰撞出靈感,嘗試去構(gòu)造統(tǒng)一的理論框架。“我原來以為這篇論文可能比較冷門,因?yàn)樘珨?shù)學(xué),沒想到能夠獲獎(jiǎng)。”陳涵晟說。

達(dá)摩院研究型實(shí)習(xí)生、同濟(jì)大學(xué)研究生陳涵晟
論文第一通訊作者、達(dá)摩院算法專家王丕超博士表示,這篇論文特別之處在于,用數(shù)學(xué)的方式解決AI底層問題,帶來了基礎(chǔ)理論上的突破,對(duì)3D視覺領(lǐng)域的研究和應(yīng)用都將產(chǎn)生積極影響。“核心創(chuàng)新是轉(zhuǎn)換數(shù)學(xué)視角,引入概率密度,把不可導(dǎo)的函數(shù)變成可導(dǎo),所以能通過反向傳播來訓(xùn)練深度網(wǎng)絡(luò),最終實(shí)現(xiàn)穩(wěn)定收斂,提升3D物體的定位精度。”
據(jù)悉,研究型實(shí)習(xí)生是阿里巴巴在2017年創(chuàng)立的科研項(xiàng)目,已為全球200多所頂尖高校的1000多名學(xué)子提供科研崗位。
論文鏈接:https://arxiv.org/abs/2203.13254 |