您的位置 > 南安普敦贴吧 > CDA專訪 > 一文完全解讀:是什么使神經網絡變成圖神經網絡?

南安普敦vs利物浦直播:一文完全解讀:是什么使神經網絡變成圖神經網絡?

南安普敦贴吧 www.uaxaaq.com.cn 來源:CDA原創 | 2019-09-27 | 發布:經管之家





作者 | Boris Knyazev

編譯 | 栗峰

來源 | 深度學習這件小事


最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至于生命科學。GNN在對節點關系建模方面表現十分突出,使得相關的研究領域取得了一定突破。本文將就“為什么圖有用”、“為什么很難在圖上定義卷積”、“是什么使神經網絡成為了圖神經網絡”這些問題進行討論。

首先,讓我們簡單回顧一下什么是圖?圖 G 是由有向或無向邊連接的一組節點(頂點)。節點和邊通常是由專家依據知識經驗或是對問題的直覺進行設置的。因此,它可以是分子中的原子,社交網絡中的用戶,交通系統中的城市,團隊運動中的運動員,大腦中的神經元,動態物理系統中的交互對象,圖像中的像素、圖像邊界框或是圖像分割掩模。

換句話說,在很多情況下,實際上是由你來決定圖的節點和邊。

這是一種很靈活的數據結構,它囊括了很多其他的數據結構。例如,如果沒有邊,那么它就會變成一個集合;如果只有“垂直”邊,其中任意兩個節點都相連,那么我們就有了一個數據樹。當然正如我們接下來將要討論的,這種靈活性有利也有弊。



兩個分別有5和6個節點的無向圖,節點的順序是任意的。




一.為什么圖有用

在計算機視覺(CV)和機器學習(ML)的背景下,研究圖以及學習當中的模型至少可以給我們帶來以下四個好處:




1. 我們可以有機會解決以前解決不了的難題,例如:癌癥藥物發現(Veselkov等人,Nature,2019年);更好地理解人腦結構(Diez&Sepulre,Nature,2019);能源和環境友好材料的發現(Xie等人,Nature Communications,2019年)。




2. 在大多數CV/ML應用程序中,你可能曾經把它們看成是另一種數據結構,但數據實際上可以被看作是圖。將數據表示成圖可以提供很大的靈活性,并能在你處理問題的時候為你提供截然不同的視角。例如,你可以直接從“超像素”中學習,而不必從圖像像素中學習,在Liang等人2016年在ECCV發表的論文,以及我們即將發表的BMVC論文都可以找到依據。圖還允許你對數據施加關系歸納偏差,能使你在處理問題時具備一些先驗知識。例如,如果你想對人體的姿勢進行推理,你的關系偏差就可以是人體骨架關節的圖 (Yen等人,AAAI,2018);或者如果你想對視頻進行推理,你的關系偏差可以是移動邊框的圖 (Wang&Gupta,ECCV,2018)。另一個例子是可以將面部標志表示為圖 (Antonakos等人,CVPR,2015),以便對面部特征和身份進行識別。




3. 神經網絡本身可以看作是一個圖,其中節點是神經元,邊是權重,或者節點是層,邊表示向前/向后傳遞的流程(在這種情況下,我們討論的是在TensorFlow中使用計算圖、PyTorch和其他DL框架)。應用程序可以是計算圖的優化、神經結構搜索和訓練行為分析等。




4. 最后一點,你可以更高效的解決很多問題,在這些問題中數據可以更自然地表示成圖。這包括但又不限于分子和社會網絡分類(Knyazev等人,NeurIPS-W,2018),3D Mesh的分類及對應(Fey等人,CVPR 2018),動態交互對象的建模行為(Kipf等人,ICML,2018),視景圖建模(詳見即將到來的ICCV研討會)和問答(Narasimhan, NeurIPS,2018),程序綜合(Allamanis等人,ICLR,2018),不同的強化學習任務(Bapst等人,ICML,2019)和許多其他問題。




我之前的研究是關于人臉識別和分析面部情緒,所以我很欣賞下面這個圖。



來自(Antonakos等人,CVPR,2015)的圖,將臉部標志提取出來。這是一種有趣的方法,但在很多情況下它并不能全面的表示出一個人的面部特征,因此可以通過卷積網絡從面部紋理中出捕捉到更多信息。相反,與2D標志相比,基于人臉的3D網格的推理看起來更合理(Ranjan等人,ECCV,2018)。




二.為什么很難在圖上定義卷積

要回答這個問題,首先要理清一般使用卷積的動機,然后用圖術語描述“圖像上的卷積”,這將使“圖卷積”的過渡更加流暢。




1. 為什么卷積有用

我們應該理解為什么我們要注意到卷積,以及為什么我們要用它來處理圖?與完全連接的神經網絡(NNS或MLP)相比,卷積網絡(CNN或Convnet)具有一定的優勢。



首先,Convnet利用圖像中的一種自然先驗,在Bronstein等人在2016年發布的論文中有了更正式的描述,例如:

(1)平移不變性,如果我們將上面圖像上的汽車平移到左/右/上/下,我們仍然能夠認識到它是一輛汽車。這是通過在所有位置共享濾波器來實現的,也就是應用卷積。

(2)局域性,附近的像素是密切相關的,通常表示一些語義概念,如車輪或車窗。這是通過使用相對較大的濾波器來實現的,它可以捕捉到局部空間鄰域中的圖像特征。

(3)組合性(或層次結構),圖像中較大的區域通常都包含了較小區域的語義父級。例如,汽車是車門、車窗、車輪、駕駛員等的母體,而司機則是頭部、手臂等的母體。這是通過疊加卷積層和應用池進行的隱含表達。

其次,卷積層中可訓練參數(即濾波器)的數目并不取決于輸入維數,因此在技術上我們可以在28×28和512×512圖像上訓練完全相同的模型?;瘓浠八?,模型是參數化的。

理想情況下,我們的目標是開發一個像圖神經網絡一樣靈活的模型,它可以消化和學習任何數據,但同時我們希望通過打開或關閉某些先驗來控制(正則)這種靈活性的元素。

所有這些良好的特性使得ConvNet不太容易過度擬合(訓練集的高精度和驗證/測試集的低精度),在不同的視覺任務中更精確,并
本文已經過優化顯示,查看原文請點擊以下鏈接:
查看原文:https://www.cda.cn/view/27170.html
京ICP備11001960號  京ICP證090565號 京公網安備1101084107號 論壇法律顧問:王進律師知識產權?;ど?/a>免責及隱私聲明   主辦單位:南安普敦贴吧 版權所有
聯系QQ:2881989700  郵箱:[email protected]
合作咨詢電話:(010)62719935 廣告合作電話:13661292478(劉老師)

投訴電話:(010)68466864 不良信息處理電話:(010)68466864