【團隊新作】從哈希到卷積神經網絡:高精度&低功耗

日期:2018.03.15     

【團隊新作】從哈希到卷積神經網絡:高精度&低功耗   


程健研究員團隊最近提出了一種基于哈希的二值網絡訓練方法,揭示了保持內積哈希和二值權重網絡之間的緊密關系,表明了網絡參數二值化本質上可以轉化為哈希問題,在ResNet-18上,該方法比當前最好方法的精度提高了3%

近年來,深度卷積神經網絡已經深入了計算機視覺的各個任務中,并在圖像識別、目標跟蹤、語義分割等領域中取得了重大突破。在一些場景下,當前深度卷積網絡性能已經足以部署到實際應用中,這也鼓舞著人們將深度學習落地到更多的應用中。

然而,深度卷積網絡在實際部署時面臨著參數量和時間復雜度等兩方面的問題,一方面是深度網絡巨大的參數量會占用大量的硬盤存儲和運行內存,這些硬件資源在一些移動和嵌入式設備中往往是很有限的;另外一方面就是深度網絡的計算復雜度較高,這會使得網絡推理速度很慢,同時會增加移動設備的電量消耗。
為了解決此類問題,人們提出了很多網絡加速和壓縮方法,其中網絡參數二值化是一種將網絡參數表示為二值參數的方法。由于二值網絡中參數只有+1 和-1 兩種值,乘法運算就可以被加法運算替代。由于乘法運算比加法運算需要更多的硬件資源和計算周期,使用加法運算替代乘法運算能夠實現網絡加速的目的。另一方面,原始網絡參數的存儲格式是 32 位浮點數,二值參數網絡只使用 1 位來表示+1 或者-1, 達到了 32 倍的壓縮目的。但是將參數從 32 位量化到 1 位會導致較大的量化損失,當前的二值網絡訓練方法往往會導致較大的網絡精度下降,如何學習二值的網絡參數同時又不帶來較大的精度下降是一個問題。 

自動化所程健研究員團隊的胡慶浩等人最近提出了一種基于哈希的二值網絡訓練方法,揭示了保持內積哈希(Innerproduct Preserving Hashing)和二值權重網絡之間的緊密關系,表明了網絡參數二值化本質上可以轉化為哈希問題。 

給定訓練好的全精度浮點 32 位網絡參數 W,二值權重網絡(BWN)的目的是學習二值網絡參數 B 并維持原始網絡精度。學習二值參數 B 的最樸素的方式就是最小化 B 與二值參數 B 之間的量化誤差,但是這種量化誤差和網絡精度之間存在著一定的差距,最小化量化誤差并不會直接提高網絡精度,因為每一層的量化誤差會逐層積累,而且量化誤差會受到輸入數據的增幅。 

一種更好的學習二值參數 B 的方式是最小化內積相似性之差。假設網絡某一層輸入為 X,X^TW是原始的內積相似性,則 X^TB 是量化之后的內積相似性,最小化 X^TW 與 X^TB 之間的誤差可以學習到更好的二值參數 B。從哈希的角度來講,X^TW 代表著數據在原始空間中的相似性或者近鄰關系,X^TB 則代表著數據投影到漢明空間之后的內積相似性。而哈希的作用就是將數據投影到漢明空間,且在漢明空間中保持數據在原始空間中的近鄰關系。至此,學習二值參數 B 的問題就轉化成了一個在內積相似性下的哈希問題,該哈希主要是將數據投影到漢明空間并保持其在原始空間中的內積相似性。 

團隊首先在 VGG9 小網絡上對方法進行驗證,并且在 AlexNet 和 ResNet-18 上超過當前的二值權重網絡。特別的,在 ResNet-18 上,該方法比當前最好方法的精度提高了 3 個百分點。獲得了較好的實驗結果。 

相關工作發表在AAAI2018會議[1]



參考資料:

[1] Qinghao Hu, Peisong Wang, Jian Cheng. From Hashing to CNNs: Training Binary Weight Networks via Hashing. AAAI 2018
        [2]Dasgupta S, Stevens C F, Navlakha S. A neural algorithm for a fundamental computing problem. Science, 2017, 358(6364): 793-796.



電話:025-83351531 網址:http://www.www.0770qp.com 地址:江蘇南京市江寧區創研路266號麒麟人工智能產業園A3樓3層

分分28-主页 柘城县 | 永平县 | 乌鲁木齐市 | 江北区 | 凉城县 | 广河县 | 井研县 | 吴桥县 | 正镶白旗 | 平湖市 | 离岛区 | 临夏市 | 左贡县 | 丘北县 | 江达县 | 新乡县 | 调兵山市 | 舟曲县 | 金寨县 | 介休市 | 乌什县 | 弋阳县 | 香格里拉县 | 常熟市 | 米易县 | 奉贤区 | 攀枝花市 | 锡林浩特市 | 电白县 | 沅江市 | 四会市 | 隆安县 | 从化市 | 佛冈县 |