iDST院長金榕IJCAI演講:阿裡巴巴的深度學習應用(附PPT)

雷鋒網 AI 科技評論按:深度學習過去十年在各個領域都取得瞭巨大的成功,但當把深度學習技術應用到實際問題中時,靜電油煙處理機常會遇到諸多挑戰。阿裡巴巴作為在電商領域有諸多業務的企業,對深度學習有很大的需求,不可避免地當他們將深度學習應用到業務中時會遇到許多學界人士不可能遇到的問題。

前段時間剛過去的IJCAI 2017大會上,阿裡巴巴集團iDST院長金榕做瞭一場關於《Deep Learning at Alibaba》的keynote報告。報告中,金榕介紹瞭深度學習在阿裡巴巴的業務中的一些應用以及正在進行的一些研究。以下內容為雷鋒網(公眾號:雷鋒網)根據現場報告的錄音以及IJCAI 官網上的相關論文《Deep Learning at Alibaba》整理而成。

一、演講目錄

金榕的演講主要有四塊內容。如PPT中所示:

1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業務開始,通過遷移學習來處理後兩個問題。

2、語音識別和自然語言處理。包括聲學模型、依存語法和模仿問答三個部分。

3、對組合優化的討論。在這個討論中,金榕介紹瞭3D容器打包(3D Bin Packing)和自動設計banner兩個問題,前者在菜鳥運送快遞時節省瞭大量的成本,後者則在雙十一時節省瞭大量的人力、物力。

4、模型簡化問題。包括模型的壓縮以及通過淺網(shallow network)的嘗試工作。

在開始介紹阿裡巴巴業務中的深度學習之前,金榕博士介紹瞭阿裡巴巴企業的生態環境。作為一個電子商務企業,阿裡巴巴的購物平臺包括淘寶、天貓、聚劃算、飛豬、AliExpress、LAZADA(東南亞地區最大的在線購物網站之一)等,在此基礎上還在許多涉足領域,例如螞蟻金服、阿裡媽媽、微博、高德地圖、UC瀏覽器、優酷和土豆、菜鳥等。

金榕還對阿裡巴巴業務中應用到的深度學習問題作瞭一個梳理,大概包括:

1、信息檢索(搜索和推薦系統);

2、語音技術(自動語音識別、語音合成,對話管理);

3、自然語言處理(拼寫檢查、依存語法、問答和機器翻譯);

4、圖像/視頻內容分析(臉部、文字的識別、匹配以及細粒分類;多形態分類;對象檢測、追蹤、識別;視頻事件檢測、分類);

5、深度學習和優化(優化、模型壓縮、預測;道路規劃和圖標設計)

二、計算機視覺1、拍立淘

在阿裡巴巴的淘寶中有一項業務為“拍立淘”。其基本的思想就是以圖搜圖,對著你感興趣的物品拍一張照片,系統將根據照片給你推薦相關的商品。 據金榕介紹,現在已經有超過1億件商品的30億張圖片,每天有至少1200萬活躍用戶。

這項業務的基礎就是通過深度學習對結果進行排序,阿裡研究人員通過用戶記錄的三元組數據(查詢圖片、點擊圖片和未點擊圖片)來訓練模型的排序損失函數,從而得到排序結果。

例如你上傳一張桌子的照片,模型將自動檢測出主體,然後按照排序分數從高到低排出相關商品的結果。

2、從拍立淘到Everything——遷移學習

拍立淘的這項業務其本質就是圖像匹配,所以可以通過遷移學習將這個模型從電子商務應用到其他領域。傳統的遷移學習方法如圖所示,拍立淘中圖片的矢量表示x通過線性變換遷移到別的領域的圖像表示x’上。其中W為線性遷移矩陣,這個矩陣可以通過有限的數據學習得到。

這種方法比較簡單,但由於在實際應用中源和目標往往有比較大的差距,線性模型並不能很好的調和這種差距。金榕介紹,在阿裡的遷移學習中,他們引入瞭一個隨機傅立葉函數,使遷移變換由線性變為非線性。

這種非線性遷移學習的方法在實驗中要比線性遷移學習方法的精度要高,魯棒性也更好。

三、語音識別和自然語言處理1、聲學模型

自動語音識別包括聲學模型、語言模型和解碼器。這裡隻討論其中的聲學模型(Acoustic Model)。基於聲學模型的神經網絡在過去5年已經有瞭長足的發展,單詞識別的錯誤率已經下降到瞭5.9%。

現在常用的對聲學模型的處理是雙向長短時記憶模型(Bi-directional Long Short-Term model)。這種模型相比於長短時記憶模型有更高的精度,但是潛在的因素也非常大。阿裡的研究人員開發出潛在控制雙向長短時記憶模型(Latency-Controlled BLSTM),這種模型添加瞭刪減的反向傳播以及未來的信息,這種模型能夠加速BLSTM的計算。

2、依存語法(Dependency Parsing)

依存語法這個問題,對於非專業人士還是很難理解的。簡單來說就是通過依存語法構建瞭主詞與描述主詞的詞之間的關系。由於依存語法沒有詞組這個層次,每一個結點都與句子中的單詞相對應,它能直接處理句子中詞與詞之間的關系。這種特性使得它非常便於語句分析和信息提取。

最近幾年人們在將神經網絡應用到語法解析方面取得瞭很大的成功。其中一個極好的例子就是biaffine attention parser,其基本的思想就是給范圍內每一個可能的主詞與其他詞之間的聯系進行打分。但是這隻針對你所感興趣的詞。在淘寶中,阿裡的研究人員采用瞭附加有全局調節器的BAP,這種方式得到的結果有更好的表現。

例如上面的例子中,傳統的BAP會將cautious與decline關聯起來,而實際上它們並沒有聯系;而附加有全局調節器的BAP則顯示出較好的結果。

3、模仿問答

金榕博士在此簡要介紹瞭Mimicked QA系統。這個系統並不是要簡單地構建一個問答系統,更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的,它首先將用戶的語音提問通過語音識別轉化成文本,再通過文本問答系統生成答案,隨後生成語音答案以及相應的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。

四、組合優化在這個部分,金榕通過兩個例子——3D容器打包(3D Bin Packing)和自動設計banner——來說明阿裡如何將深度學習的組合優化應用到業務當中。

1、3D容器打包

在物流業務中有一個常見的NP問題(也是組合優化問題)就是3D容器打包:如何才能更有效地打包物品呢?這個問題的實質就是找到一個優化的打包方式(啟發heuristic)。但是打包的方式太多瞭,所以困難就在於如何才能知道何時該用何種打包方式?金榕介紹瞭他們團隊如何通過指針網絡和強化學習來給出優化方案。

在打包過程中有三項關鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優序列。

模型中的指針網絡,是由兩個回歸神經網絡的RNN模塊(編碼器和解碼器)構成,該網絡的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優的)。當給定一個打包序列後,打包這些物品所需的最小容器就很容易可以計算出來。隨後通過強化學習便可以快速找到優化的打包方式。

阿裡團隊將通過模擬數據對該模型訓練後,將結果應用到天貓和菜鳥的物流打包中,結果證明強化學習後的打包方式能夠節省5%的打包箱。5%的優化對普通人來說可能並不顯著,但考慮到物流公司每天都要處理成千上萬的包裹,這樣的優化結果將能夠節省很多成本。

2、自動設計Banner

在購物網站上,一個好的banner會給用戶帶來更好的體驗。阿裡巴巴平臺上有大量的商品展示,尤其是在雙十一光棍節時,對banner有大量的需求,靠手動設計顯然是不現實的。於是他們將深度學習應用到瞭banner的設計中。

具體來說,banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特征網絡中,再加上用戶日志,就構成瞭一個價值網絡,最終會給出一個組合(banner)的質量(quality)。通過這種方式為網上廣告進行設計顯然將會更節省人力、更快速地響應需求,也將會得到更好的結果。

五、模型壓縮與淺網

現在的深度學習模型變得越來越復雜,甚至有的模型已經超過瞭1000層,參數空間達到瞭10億級。這使得深度網絡神經學習在優先的存儲器和計算資源下難以運行。金榕在此提到瞭阿裡的兩種解決方案:模型壓縮和淺網模型的構建。

1、模型壓縮

在演講中,金榕提出瞭一個利用乘法器交替方向法(ADMM)的low-bits量化神經網絡的框架來壓縮模型。

當模型比較龐大時,我們有時可以通過尋求次優解來降低計算量。常用的近似方法是,將連續的函數進行低比特量化(low-bit quantization),將w通過符號函數f(w)或硬雙曲切函數g(w)來替換。但這種方法近似的目標函數在最優解附近會表現的很不穩定。

為瞭解決這個問題,他們引入瞭交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優化問題的計算框架,它能夠將連續解和離散解結合起來,非常適用於求解分佈式凸優化問題。此外為瞭更有效地運行ADMM,他們還開發瞭額外梯度下架方法(extra gradient descent method)來解決優化問題,這種方法能夠加速收斂。

通過用imageNet數據集的測試,結果顯示他們的方法要優於別的方法,且三比特(-1、0、1)方法相比full-precision在精度上幾乎沒有損失。

2、深網 v.s. 淺網

就前面說的,當想要尋求一個更優的解時,人們往往會求助於更深的神經網絡。這種網絡的預測函數往往是預定的且參數是相互獨立的。盡管這種方式在性能上有優良的表現,但模型和運算量都非常大,在訓練上是非常困難的,使用起來也非常昂貴。於是他們就想,能否通過構建復雜的激活函數來在預測函數中引入高度非線性,以此來取代神經網絡的深度優勢。換句話說,就是他們想用一個非常復雜的激活函數來開發一個相對較淺的網絡。

這個想法是受到瞭Cybenko等人的universal approximation theorem的啟發。根據這個理論,存在一個激活函數σ,嚴格遞增且是反曲的,它有以下的性質:對於任意函數f ∈ C [0, 1]n以及任意精度的限制 ε 0,都存在常數d(輸入參數的維度)、c、θ 、γ、向量w,滿足圖中的不等式。

換句話說,這個理論暗示瞭存在一個復雜的雙曲型激活函數,使得任何連續函數都可以通過兩個隱藏層的神經網絡得到很好的近似。搜索非線性激活函數的優點是激活函數是單變量函數,即使在非參數化設置中也可以有效地完成其優化。目前這項研究仍在進行中,還有不少的困難。

雷鋒網註:參考論文《Deep Learning at Alibaba》

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。



營業用抽油煙機油煙靜電機

台灣電動床工廠 電動床
台灣電動床工廠 電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機


arrow
arrow

    iic020au04 發表在 痞客邦 留言(0) 人氣()