全球人工智能領域最具影響力的大會CVPR近日宣布,將2022年“最佳學生論文”獎頒給同濟大學研二學生陳涵晟等人,這是二十多年來首次有中國高校學生獲此殊榮。該論文是陳涵晟在阿里達摩院實習期間的成果,融合了傳統幾何推理和深度學習,提出了計算3D物體位姿的新方法,能從單張圖片計算出3D物體在真實世界里的位置和朝向,有望成為自動駕駛、機器人等技術發展的理論動力。
CVPR(國際計算機視覺與模式識別會議)是人工智能領域的頂級學術會議,今年共收到8161篇論文投稿,最終錄取2064篇,只評出最佳論文和最佳學生論文各1篇。CVPR的最佳論文和最佳學生論文常被視作AI技術風向標,誕生了ResNet等一系列標志成果。
CVPR早在2001年就設立最佳學生論文獎,今年首次發給中國高校學生。獲獎論文《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 》來自同濟大學汽車學院和阿里巴巴達摩院,作者分別是陳涵晟、王丕超、王帆、田煒、熊璐、李昊。

獲獎證書
論文研究的是3D視覺領域經典問題,通過單張圖像求解3D物體在真實世界里的位姿(位置和朝向)。這一技術方向應用前景廣闊,是自動駕駛、機器人等行業的基礎技術。比如在自動駕駛中,只有先計算出周邊車輛的位姿,判斷對方究竟是要加速、剎車還是變道,己方車輛才能做出對應操作,計算不準或者過慢都有可能引發事故。

3D物體的位姿計算示意
通過單張圖像定位3D物體極具挑戰性。一般有兩類解決方法:一類是基于幾何推理,例如PnP算法,可解釋性好、泛化能力強,但需要提前知道物體的尺寸和形狀,具有較大的局限性;另一類是深度學習方法,可預測3D物體的位置坐標和朝向角度,但在小規模數據集上容易過擬合。
獲獎論文提出的新方法EPro-PnP,創造性地引入概率分布,將幾何推理和深度學習兩種方法無縫銜接,形成了一個端到端的易用模型,可以快速估算3D物體的位姿。實驗證明,新模型通用性強、定位準確,不需要提前知道物體的幾何形狀;更要重的是非常簡潔,效率較高,且具有較好的可解釋性,有望用于自動駕駛、機器人、無人機、AR等諸多需要通過視覺來估算物體位姿的場景。

EPro-PnP方法示意
據了解,論文第一作者陳涵晟本碩都就讀于同濟大學汽車學院,目前研究生二年級在讀,導師為熊璐教授,副導師為田煒助理教授,達摩院導師為王丕超博士。他的研究方向是計算機視覺中的3D物體位姿估計,研一就已在CVPR發表論文。2021年到阿里達摩院做研究型實習生后,在達摩院日常研究討論中碰撞出靈感,嘗試去構造統一的理論框架。“我原來以為這篇論文可能比較冷門,因為太偏數學,沒想到能夠獲獎。”陳涵晟說。

達摩院研究型實習生、同濟大學研究生陳涵晟
論文第一通訊作者、達摩院算法專家王丕超博士表示,這篇論文特別之處在于,用數學的方式解決AI底層問題,帶來了基礎理論上的突破,對3D視覺領域的研究和應用都將產生積極影響。“核心創新是轉換數學視角,引入概率密度,把不可導的函數變成可導,所以能通過反向傳播來訓練深度網絡,最終實現穩定收斂,提升3D物體的定位精度。”
據悉,研究型實習生是阿里巴巴在2017年創立的科研項目,已為全球200多所頂尖高校的1000多名學子提供科研崗位。
論文鏈接:https://arxiv.org/abs/2203.13254