作者:劉燕
過去一年,從技術(shù)向產(chǎn)業(yè),有哪些值得記住的人和事?未來一年,AI 場景化落地還有哪些可能性? 8 位 AI 行業(yè)局內(nèi)人,向我們講了講他們的故事和看法。
早在 2010 年加入百度時,王海峰就開始了圍繞 AI 技術(shù)體系的「實踐」。
在那之前,百度仍沒有一個單獨的 AI 基礎(chǔ)技術(shù)部門。他陸續(xù)拓展自然語言處理、機器翻譯、機器學(xué)習(xí)、語音、圖像、深度學(xué)習(xí)、個性化推薦等技術(shù)方向,盡管如他所說,當時「其實也不明確能用來做什么」。
不過,去解鎖如此多元的技術(shù)領(lǐng)域,也不是王海峰起初的職能定位,實際上,他是以自然語言處理專家的身份被邀請加入百度。王海峰從 1993 年開始專注研究機器翻譯與自然語言處理,成就斐然,在自然語言處理與計算語言學(xué)領(lǐng)域頂國際學(xué)術(shù)組織 ACL(Association for Computational Linguistics)50 多年歷史上,他是唯一出任過主席(President)的華人。
即便是在技術(shù)研究上「戰(zhàn)績優(yōu)異」,他沒有停止邊界的突破。2014 年,隨著轉(zhuǎn)戰(zhàn)業(yè)務(wù)部門,三年多時間,王海峰負責了百度核心的幾個業(yè)務(wù)板塊,比如搜索、手機百度、Feed 流……并在技術(shù)與業(yè)務(wù)互相協(xié)同的過程中,孵化促成了度秘等新業(yè)務(wù)。
那段時間,王海峰不僅迅速迎來個人在百度的兩次晉升—— 2011 年升為基礎(chǔ)技術(shù)首席科學(xué)家、2013 年進一步升至百度副總裁,也實實在在嘗到了以技術(shù)突破帶動業(yè)務(wù)產(chǎn)品的甜頭。「我們憑借持續(xù)的技術(shù)突破創(chuàng)新讓百度搜索始終處于領(lǐng)先,我們憑借技術(shù)的快速升級實現(xiàn)了 Feed 流量的高速增長,憑借技術(shù)的厚積薄發(fā)催生了度秘。業(yè)務(wù)需要解決的實際應(yīng)用問題,以及業(yè)務(wù)中產(chǎn)生的大量真實數(shù)據(jù),又促進了技術(shù)的繼續(xù)創(chuàng)新突破。」
這讓 2017 年王海峰再一次完成轉(zhuǎn)身顯得順理成章。無論哪一個方向的變化,幾乎都暗合了他在百度 8 年時間里的升級過程,怎么看也都是他熟悉的「戰(zhàn)場」:
2017 年 3 月,百度 AI 技術(shù)平臺體系(AIG)成立,在這之前,百度并沒有一個部門把所有 AI 相關(guān)技術(shù)都整合統(tǒng)一在一起。原本并不相互獨立的百度研究院和八個應(yīng)用技術(shù)部門,有了明確的分工,前者面向基礎(chǔ)前瞻的技術(shù)研究,后者由應(yīng)用目標來牽引。技術(shù)之外,百度在人工智能領(lǐng)域更大的變化是對應(yīng)用、平臺和生態(tài)的發(fā)力,促成商業(yè)化的落地。
很明顯,應(yīng)用導(dǎo)向成為百度在 AI 這件事上的重點,而王海峰經(jīng)歷了從零開始打下 AI 基礎(chǔ)、深入核心業(yè)務(wù)線的過程后,也再次回歸基礎(chǔ)技術(shù),組建 AI 技術(shù)平臺體系,就任 AIG 總負責人并晉升為百度 Estaff 成員(百度高決策層),成為百度 AI 戰(zhàn)略的關(guān)鍵「局內(nèi)人」。
以下是機器之能對王海峰的專訪實錄(機器之能做了不改變原意的編輯):
「重要的決定,第一步是加入了百度,第二步是除了百度讓我做的自然語言處理,我還把 AI 一系列基礎(chǔ)技術(shù)都建立起來了」
我們看到百度真正開始在 AI 方面體系化規(guī)?;耐度?,應(yīng)該是從 2010 年你加入之后?;乜串敃r的情形,這 8 年時間主要經(jīng)歷了什么?
我 2010 年 1 月份加入百度,到上個月 8 年整的時間,我走過了三個階段,從奠基 AI 基礎(chǔ)技術(shù),到負責核心業(yè)務(wù),再回來組建 AI 技術(shù)平臺體系。這 8 年,對公司的貢獻、我個人的收獲,都是很大的。
第一階段,那時候百度還沒有這種橫跨的獨立的技術(shù)部門,只有各個產(chǎn)品部門里的技術(shù)團隊。當然,基礎(chǔ)的數(shù)據(jù)中心這些肯定是橫跨的。但 AI 類的技術(shù)還沒有橫跨的部門。我加入后開始著手組建這些部門。至少在中國的各個互聯(lián)網(wǎng)公司中,這應(yīng)該算是比較領(lǐng)先的一個布局。所以我在百度的前四年,就把這些都陸續(xù)建起來了,從 NLP 到語音、圖像、機器學(xué)習(xí)、深度學(xué)習(xí)、個性化推薦,數(shù)據(jù)挖掘等。
這個階段奠定的基礎(chǔ),使百度后來在人工智能領(lǐng)域既有先發(fā)優(yōu)勢,同時也有更完善的組織架構(gòu),有更深厚的積累。
但如果僅僅如此,我認為對一個互聯(lián)網(wǎng)公司來說其實還是不完整的?;ヂ?lián)網(wǎng)公司產(chǎn)品迭代特別快,數(shù)據(jù)特別大,而且都是來源于實際業(yè)務(wù)。所以,2014 年初,有一個契機,當時百度核心的搜索業(yè)務(wù)特別需要,我就轉(zhuǎn)崗去負責搜索,做了三年多。
這三年多時間,我大的收獲就是每天跟產(chǎn)品打交道,跟用戶打交道,跟線上的各種需求打交道。同時,我一直在做技術(shù),所以我也更清晰地知道,這些技術(shù)怎樣才能更好地應(yīng)用到產(chǎn)品里面去。
我這三年多的時間,第一年從當時份額大的 PC 搜索開始;到下半年,開始有所擴展,接手了商業(yè)平臺、糯米技術(shù)平臺等;2015 年,我們將 PC 和移動搜索進行了整合,這在百度歷史上也是非常重要的一步。整合之后,我們就可以開始做更多事情,比如度秘就是在 2015 年誕生的。2016 年我的職責范圍中又增加了手機百度、Feed 流等重要業(yè)務(wù),憑借技術(shù)的快速升級,半年的時間里 Feed 的流量就漲了幾十倍。
去年 3 月份又回到基礎(chǔ)技術(shù)的時候,我已經(jīng)帶過百度現(xiàn)在多數(shù)重要的業(yè)務(wù)。業(yè)務(wù)中有什么實際應(yīng)用問題急需解決,業(yè)務(wù)中產(chǎn)生的什么真實數(shù)據(jù)可供技術(shù)使用,新技術(shù)如何融合進原有的龐大系統(tǒng),我都非常清楚。這些對技術(shù)的創(chuàng)新及應(yīng)用都是非常重要的。
有從做技術(shù)到產(chǎn)品再回來負責技術(shù)這樣一個過程,我會了解基礎(chǔ)技術(shù)跟產(chǎn)品到底應(yīng)該是什么樣的分工協(xié)作關(guān)系,怎么樣把基礎(chǔ)技術(shù)做得既領(lǐng)先、前瞻,同時又能更好的支撐業(yè)務(wù),不管是支撐現(xiàn)在的還是為未來做儲備,都會做得更好。
這期間,你做過哪些現(xiàn)在看起來仍然關(guān)鍵的決定?
如果說重要的決定,第 1 個是加入百度;第 2 個是除了百度招我時希望我做的自然語言處理,我還把一系列人工智能技術(shù)方向都建立了起來;第 3 個是 2014 年初我去負責搜索;第 4 個當然是 2017 年 3 月組建 AIG。
事實上,剛加入百度時,公司并沒有要求我把那些 AI 技術(shù)方向都建起來。初進入百度的時候,我的定位就是自然語言處理專家,希望我把百度自然語言處理完善起來。因為搜索引擎對自然語言處理的依賴非常重,比如用戶需求分析、網(wǎng)頁分析等。但我并未局限于自然語言處理,在我加入百度的第一個季度,就先后為百度開創(chuàng)了機器翻譯、語音識別等對當時的百度核心產(chǎn)品價值并不大而后來又證明很重要的技術(shù)方向,之后又陸續(xù)建立了推薦及個性化、數(shù)據(jù)挖掘、圖像等方向。
2012 年初,又有了很關(guān)鍵的一步,我們正式立項開始做深度學(xué)習(xí),這在中國公司里應(yīng)該說是領(lǐng)先的。當年,我們基于深度學(xué)習(xí)的語音、OCR 等系統(tǒng)先后都上線了。從大環(huán)境看,那時候我們真正要做深度學(xué)習(xí)是面臨很大挑戰(zhàn)的。我記得 2011 年下半年,大家逐漸開始知道深度學(xué)習(xí),當時,國內(nèi)一些做機器學(xué)習(xí)的頂尖學(xué)者舉行了一個小型研討會,會上大家的感覺是,想要把這些技術(shù)應(yīng)用落地還很困難。當時國外有人曾經(jīng)嘗試過將深度學(xué)習(xí)用于語音識別,訓(xùn)練一次要半年,這種狀態(tài)是無法大規(guī)模產(chǎn)品化的。那時候我也負責做語音,我們和做系統(tǒng)的同事組成聯(lián)合項目組,既攻關(guān)算法,又優(yōu)化系統(tǒng)實現(xiàn),半年多的時間就上線了基于深度學(xué)習(xí)的語音識別系統(tǒng)。
2014 年初,我開始負責搜索,這對我職業(yè)生涯是非常重要的一步。要知道,極少有人有機會在自己的職業(yè)生涯中,負責年收入數(shù)百億的核心業(yè)務(wù)。那之后的三年,為公司核心業(yè)務(wù)做了大量貢獻的同時,我自己也得到了非常多的鍛煉和成長,也為去年重新負責 AI 基礎(chǔ)技術(shù),打造更好更有價值的技術(shù)平臺奠定了基礎(chǔ)。
在你剛加入百度還沒有一個明確的職責方向時,還是既做了翻譯又做語音這些暫時不太需要的事,是什么驅(qū)動你這么做?
我個人的確有興趣,比如我的前一份工作其實也是負責自然語言處理及語音技術(shù)相關(guān)工作。但是更重要的是基于兩個方面的判斷,一方面是產(chǎn)業(yè)發(fā)展趨勢,另一方面是技術(shù)發(fā)展趨勢。以語音為例。
先說產(chǎn)業(yè),雖然當時主流是 PC,但手機已經(jīng)展現(xiàn)出迅速變強的趨勢。所以在我看來,手機遲早會成為主流。而手機是為打電話而生的,人與手機交互自然的方式就是對著手機說話,這為語音真正廣泛應(yīng)用打下了一個很好的基礎(chǔ),這是對產(chǎn)業(yè)的基本判斷。
技術(shù)方面,過去很多年,語音技術(shù)在持續(xù)進步,每年錯誤率都在降低,有時候錯誤率相對降低 5% 左右,有時候好一點到 10%。積累到 2010 年前后,已經(jīng)快要到突破的節(jié)點了。所謂節(jié)點,就是不斷提升,過了某個臨界點,相應(yīng)的應(yīng)用環(huán)境成熟,一定會爆發(fā)。基于這樣一個判斷,雖然當時我剛來不久,還是專門跟 Robin 做了一個匯報。他自己也很熱愛和支持創(chuàng)新,很認同 AI 技術(shù)趨勢,所以他很支持,然后就開始做。后來我們做很多事情都是這樣的過程。
「要把學(xué)術(shù)思維和工程思維結(jié)合起來,先不管能不能說清楚,管用的就先把它做出來」
這些決策過程容易嗎?百度已經(jīng)是一個體系成熟的大公司。
在百度這個平臺上比較容易,百度很看重技術(shù),很鼓勵創(chuàng)新,尤其是比較前瞻的技術(shù)創(chuàng)新。所以很多技術(shù)研究的開始都是如此,大概會有兩個基本判斷依據(jù),一個技術(shù)發(fā)展趨勢,一個產(chǎn)業(yè)趨勢,這兩個缺一不可。否則,技術(shù)做得再好,沒有產(chǎn)業(yè)需求也沒有用;反過來,產(chǎn)業(yè)需求有了,技術(shù)到不了,突破不了這個臨界點,那也無法應(yīng)用。在這樣一個環(huán)境下,我們再做判斷就不是太難。
一個技術(shù)的產(chǎn)業(yè)應(yīng)用臨界點,你是怎么判斷的?
首先,技術(shù)不是說要做到 100% 準確才能用,效果達到一定程度,就好用了。比如語音識別,人也做不到 100% 準確。現(xiàn)在的語音識別技術(shù),很多場景下甚至已經(jīng)比一個正常人聽的準確率還要高,這顯然已經(jīng)可以有很多應(yīng)用了。我們當時開始研發(fā)語音識別技術(shù)時候,研究了搜索、地圖、輸入法等目標應(yīng)用,分析了語音識別準確率到什么程度可以滿足這些應(yīng)用的需要,結(jié)論是努努力是可能做得到的。
所以說,在合適的時機找合適的應(yīng)用很重要。找應(yīng)用的想法并不是我首創(chuàng)的,一直就有很多人有這種認識。我們前段時間引入了幾位世界頂級的科學(xué)家,其中有一位也是研究自然語言的(Kenneth Ward Church)。他比我年紀還要大一些,1993 年我剛?cè)胄械臅r候,就看過他的文章,當時有一篇文章叫 Good Applications for Crummy Machine Translation,那時候機器翻譯效果比現(xiàn)在差很多。但即使如此,也可以找到一些合適的應(yīng)用場景,也能發(fā)揮很多作用。
內(nèi)部在決定要進行或者是開展一項技術(shù)的研究,是怎么往前推的?
有兩方面,一些是從應(yīng)用來的,也有一些暫時沒有應(yīng)用。我們看好某些前瞻方向,就會提前布局去做,尤其是越往底層,比如說研究院,不需要有一個直接的應(yīng)用來牽引,但是我會有一個對未來的預(yù)測,認為未來這項技術(shù)會很有用,那我們就會提前布局。
你剛才也提到 2011 年下半年國內(nèi)才開始有人討論深度學(xué)習(xí),具體是什么樣的狀況?
那時候產(chǎn)業(yè)界基本上沒人做,學(xué)術(shù)界基本上也是處于起步的狀態(tài),剛剛開始接觸和測試深度學(xué)習(xí)這個概念。我們召開一些研討會,大家一起討論討論到底是怎么回事。所以基本上也沒有相應(yīng)的人才。當時我們要做深度學(xué)習(xí),也就是拿一些國外早期發(fā)表的幾篇 Paper 看一看。Paper 上看不清楚的,就只能自己去摸索了。因為 CPU 訓(xùn)練太慢,我們聯(lián)合做系統(tǒng)的同事一起搞 GPU。那個時候誰也不懂,就自己想辦法搞清楚 GPU 編程到底怎么編,就是這樣逐漸做起來的。
在外界這種狀態(tài)下,百度內(nèi)部對 AI 或者是對這些細分的技術(shù)方向有特別明確嗎?
那時候沒有那么明確。當時我們建一些技術(shù)方向,大家還是從各自產(chǎn)品角度提出有哪些需求,看這些技術(shù)是否對產(chǎn)品有用。那時候沒人提 AI 這個詞,不像現(xiàn)在 AI 已經(jīng)家喻戶曉,我們初在語音領(lǐng)域做深度學(xué)習(xí),公司大多數(shù)人還不知道。
其實那時候我自己也在反復(fù)思考,深度學(xué)習(xí)為什么會起作用。我們搞研究特別希望把數(shù)學(xué)原理先搞清楚,推導(dǎo)出來。深度學(xué)習(xí)有一些東西,其實在當時看來還說不清楚。所以一定要把學(xué)術(shù)思維和工程思維結(jié)合起來,先不管能不能說清楚,管用的就先把它做出來。
當時有這么一個空間給你不停地去嘗試?
這個空間是有的。
2010 年到 2013 年,建立了這些不同的技術(shù)方向的部門。這些部門以及這些人,比較大的變化是怎么樣的?
部門更成熟了,積累更深厚了。如果說,早期是先把這些基本的技術(shù)都搭起來,基礎(chǔ)的數(shù)據(jù)收集起來,能支持一些應(yīng)用先做起來,現(xiàn)在這些基礎(chǔ)已經(jīng)很強大了。
比如 NLP,NLP 是我來百度之后建立的第一個部門,現(xiàn)在技術(shù)、數(shù)據(jù)及平臺的積累都已經(jīng)很強大了。NLPC 技術(shù)平臺,每天公司內(nèi)部的調(diào)用量就是千億規(guī)模。在這種情況下,我們一方面持續(xù)加強技術(shù)平臺,另一方面也會為一些重要應(yīng)用進行定制化技術(shù)開發(fā)。此外,我們也更有基礎(chǔ)去做些更前瞻的、未來的東西,例如通用對話系統(tǒng)、通用人工智能方面的探索。這些看上去離產(chǎn)品應(yīng)用沒那么近,但在百度我們一直有這個追求,再往前多看幾步,持續(xù)探索通向未來之路。
團隊方面,無論是人員能力還是數(shù)量,都已經(jīng)比當年要強很多了。當年那些剛?cè)腴T的小同學(xué),現(xiàn)在都成頂梁柱了。
轉(zhuǎn)崗去負責搜索相關(guān)業(yè)務(wù),涉及到的多半是產(chǎn)品,對你來說是挑戰(zhàn)嗎?
我是技術(shù)出身,其實一個純做技術(shù)的人轉(zhuǎn)到業(yè)務(wù)上,挑戰(zhàn)還是很大的。但是我覺得我還是具備做業(yè)務(wù)所需的一些重要素質(zhì)的,推動力和執(zhí)行力都很強。這就是為什么我從純做技術(shù)轉(zhuǎn)到負責業(yè)務(wù)也能頂?shù)米 ?/span>
我接手搜索以后,和以前的確是不一樣。我記得一開始,Robin 就問我,你怎么保證這個能做好?當時其實壓力也挺大的,包括很多競品追得很緊。我說人家要做,這個我是擋不住的。但是我會保證,我創(chuàng)新的速度更快。因為我技術(shù)積累多,我知道做什么會更快,能不斷往前跑。這樣的話,別人是追不上的,而且別人要一直追著我們,其實后很容易亂掉他們自己的節(jié)奏。
做了一段時間以后,我更堅定了,我發(fā)現(xiàn)這樣做是有效的,很快就見到效果了。2014 年初,百度搜索引擎雖然局部已經(jīng)用了不少機器學(xué)習(xí)技術(shù),但在主體上還是一個傳統(tǒng)的、以規(guī)則為主的系統(tǒng)。我們迅速地持續(xù)不斷地推進技術(shù)改造,直到現(xiàn)在每個模塊都是 AI 技術(shù)在支撐。我也發(fā)現(xiàn),用 AI 技術(shù)改造搜索的同時,也能衍生出一些其它東西來,這就是后來度秘誕生的原因。
在 2014 年底,我們搜索團隊曾做過一次討論,討論搜索的未來到底是什么。當時我們就認為,搜索就是不斷地滿足用戶需求,我認為一個比較終極、自然的狀態(tài),其實就是一個像人一樣的秘書。比如說你有一個秘書,什么問題,任何事情你跟他交待一句,甚至有一些你不用交待,他很了解你,你什么都不說,他可能就替你辦好了。這就是為什么后來會有度秘,會有小度機器人。相當于做搜索這條主線的同時,衍生出了面向未來的旁線開始做。
「AI 會滲透到各行各業(yè),會滲透到我們生活的方方面面,社會的每一個角落都會有」
在具體場景里,什么樣的產(chǎn)品才是好的 AI 產(chǎn)品?它能更好地把技術(shù)和用戶體驗結(jié)合起來。
AI 產(chǎn)品已經(jīng)真實存在了。搜索引擎就是一個典型的,而且是一個大的 AI 產(chǎn)品,規(guī)模極其龐大,里面有大量的 AI 技術(shù)。我們做的幾乎所有的 AI 技術(shù)都會用在搜索引擎里,所以搜索引擎和以前相比也變得越來越不一樣。
度秘、無人車更典型了,它們和搜索引擎不一樣。搜索引擎誕生的時候,人們并不把它看作是 AI 產(chǎn)品,后來我們把它逐漸演化成這樣了。而度秘和無人車從誕生的那一天起,就被認為是 AI 產(chǎn)品。信息流背后也是 AI 技術(shù),要對用戶進行理解,對內(nèi)容進行理解,將內(nèi)容和用戶做匹配進行個性化推薦,所有這些事情都是 AI。
除了百度一直在做的用戶產(chǎn)品,我們現(xiàn)在也開始做 to B 業(yè)務(wù),綜合利用我們的 ABC 能力(AI、Big Data、Cloud)為客戶賦能。例如,首鋼應(yīng)用集成了 PaddlePaddle 及計算機視覺能力的 ABC 一體機進行鋼板質(zhì)檢。再如,幾個學(xué)生基于 PaddlePaddle 平臺開發(fā)了智能桃子分揀機。AI 會滲透到各行各業(yè),會滲透到我們生活的方方面面,社會的每一個角落都會有。
百度發(fā)布小度機器人、DuerOS 平臺商業(yè)化速度非???,業(yè)務(wù)線的推動過程還挺快。
對,我認為這取決于兩個因素,一是前期做了很多積累,很多東西雖然不止我們一家在做,但這些積累我們是獨一無二的,尤其是基于搜索平臺方面,還包括語音、自然語言處理、知識圖譜等。另一方面,我認為去年我們制定的開放平臺生態(tài)戰(zhàn)略,是非常重要的。不管是 DuerOS 還是 Apollo,基本上都是這樣一個戰(zhàn)略,我們提供核心、基礎(chǔ)的東西,推動合作伙伴一起共建平臺,讓生態(tài)繁榮起來。跟平臺伙伴的合作,我們比較靈活,有各種合作模式。比較獨立的就是 DuerOS、Apollo 兩個平臺,而更龐大、完備的能力輸出,是我們的 AI 開放平臺。去年 7 月份開發(fā)者大會的時候,我們公布說百度當時有 60 項能力開放,這個數(shù)字現(xiàn)在變成 90 多了。
這背后的基本理念是什么?AI 是新的生產(chǎn)力,我把它比成第一次工業(yè)革命的蒸汽機,第二次工業(yè)革命的電,第三次工業(yè)革命的信息。不管源頭是從哪個行業(yè)出現(xiàn)的,比如說第一次工業(yè)革命很大程度上是從紡織業(yè),在 18 世紀是非常重要的產(chǎn)業(yè),后都會滲透到各行各業(yè)。后來電更不用說了,各行各業(yè)都開始用電。人工智能也是一樣,人工智能之所以從互聯(lián)網(wǎng)開始,首先是因為互聯(lián)網(wǎng)行業(yè)應(yīng)用場景特別多,有各種資源、人才、數(shù)據(jù)、計算能力,這些也是人工智能發(fā)展需要的基本要素。
但是它肯定不止于影響互聯(lián)網(wǎng),現(xiàn)在我們也看到了,各行各業(yè)都開始引入人工智能這些能力。這種情況下,任何一個公司都不可能把它完全包辦了。從這個角度講,我們也必須把這些能力開放出去,讓很多合作伙伴一起,應(yīng)用在他們的業(yè)務(wù)里面,一起讓人工智能迅速在各行各業(yè)都開花結(jié)果。在這個過程中,我們支持大家做了這些事情,大家都是受益者,終會共贏。
現(xiàn)在有多少開發(fā)者、合作方使用AI技術(shù)平臺?
去年 11 月份的百度世界大會,我們宣布是 37 萬。這個數(shù)字增長非???,我剛剛看到新的數(shù)字差不多 50 萬的樣子,去年 11 月到現(xiàn)在兩三個月的時間,又增長了十幾萬。
剛提出要做這個平臺的時候,你們對這個平臺的想法是怎么樣的?后來確定下來之后有變化過嗎?
開始的時候只有大方向和一些基本做法,肯定要在過程中不斷優(yōu)化的。比如說開始時開放技術(shù)沒那么多,我們也會討論到底先開放哪些,后續(xù)的節(jié)奏怎樣。開放出去以后,是不是就夠了呢?也不見得。一方面,我們會繼續(xù)改進已開放的技術(shù),另一方面也會不斷豐富各種支持,比如為了讓用戶更好地理解和運用這些能力,需要提供豐富的應(yīng)用實例,也需要有相應(yīng)教程和培訓(xùn)等,為此我們也組織了 AI 訓(xùn)練營等。這些都是在逐漸迭代完善的。
迭代。所以其實做開放平臺這樣的事情,與做一個用戶產(chǎn)品相比,有很多不同的挑戰(zhàn)。
對,更確切的說這是不同角度的挑戰(zhàn)。產(chǎn)品就是不斷滿足每個用戶的需求,平臺是一個個合作伙伴和開發(fā)者,他們的要求肯定會有不一樣的。
平臺類的發(fā)展方案或路徑,怎么樣判斷,或者說有什么標準去判斷它是在朝著一個好的、對的結(jié)果走?
產(chǎn)品就看是不是受用戶歡迎,是不是用的人多,留存率是不是高,等等。平臺也一樣,比如開發(fā)者數(shù)量是不是越來越多,在上面開發(fā)的應(yīng)用是不是越來越多,大家開發(fā)使用時的易用性怎么樣,是不是有很多需求我們?nèi)匀粷M足不了?其實一樣可以有很多指標可以去去衡量。
AI 技術(shù)開放平臺、Apollo,還有 DuerOS 之后,接下來也會繼續(xù)再逐漸開放其他的技術(shù)方向平臺嗎?下一個會是什么?
還是沿著兩條線來說,一個是技術(shù)上,開放數(shù)量從 60 漲到 90,今年還會繼續(xù)增加,這是沿著技術(shù)線上。Apollo 已經(jīng)不完全是一個獨立的沿著通用 AI 技術(shù)線的開放平臺,而是在汽車這個領(lǐng)域深挖,DuerOS 也類似。在垂直方向深耕,開拓一塊大業(yè)務(wù)。這個方向有了 Apollo,DuerOS,是不是仍然有下一個?我們肯定會去持續(xù)探索。
剛剛提到的 Apollo、DuerOS 平臺,這是百度把開放賦能確定為 AI 時代核心戰(zhàn)略的一個結(jié)果,所以這個戰(zhàn)略在落地方面有別于他人的基本方法論是怎么樣的?現(xiàn)在所有人都在談開放、搭平臺。
對于平臺來講,每一個單項能力夠強很重要,而綜合能力夠強、夠完整則更重要。我們現(xiàn)在也看到,我們的很多合作伙伴,他們需要的 AI 能力,普遍都不是一個單點。
比如某公司說需要一個語音識別,另一家需要一個人臉識別,還有一家需要文字識別,實際上常常不是這樣的。很多應(yīng)用都是需要把很多技術(shù)放在一起用,都是綜合應(yīng)用。企業(yè)往往不是說需要什么技術(shù),而是說要解決什么問題,需要一個完整的解決方案。這種完整的解決方案,里面包含方方面面的技術(shù),不止是識別,可能還需要理解,這就需要自然語言理解,還需要知識。我們給運營商做自動客服,相當于客服機器人。這背后涉及到語音的識別、合成,涉及自然語言的理解,對話的能力,還包括知識。知識既有我們通用的知識圖譜,又有具體行業(yè)應(yīng)用自己的知識圖譜,甚至是業(yè)務(wù)流程。這一整套東西都有。
另一方面,你還得有工程落地的支撐,需要有這樣的能力。百度云是一個能落地的很重要的平臺。當然我們也不止是云上,端上也有一些這樣的能力。所以 AI 的公司有不同的類型,每種類型有它自己存在的價值。但是我對這個趨勢的看法是,很多技術(shù)真正應(yīng)用的時候,關(guān)心的都會是解決一個應(yīng)用問題,它會是很多技術(shù),很多能力的綜合應(yīng)用。
很多技術(shù)真正應(yīng)用的時候,大家關(guān)心的還是如何解決一個問題,它會是很多技術(shù)、能力的綜合應(yīng)用。能舉一個具體的案例嗎?
我們遇到任何一個任務(wù),我們都需要先分析這個任務(wù)的本質(zhì)是什么,包括分析用戶的需求,這個任務(wù)相應(yīng)的數(shù)據(jù)的特征和分布等。這樣才能選擇更好的方法去解決它。例如,現(xiàn)在語音是人工智能很重要的一個方向,但傳統(tǒng)語音領(lǐng)域,比如你做語音識別、語音合成,會在云端訓(xùn)練一個大模型。現(xiàn)在我們真正要解決 DuerOS 的各種應(yīng)用,實際上很多問題已經(jīng)不是傳統(tǒng)意義上有一個更好的深度學(xué)習(xí)模型就行了。實際應(yīng)用中會有很多問題,例如喚醒的識別率及誤報問題,噪聲問題,麥克風(fēng)的數(shù)量及布置方式,腔體結(jié)構(gòu)等。所以真實場景下要把一個產(chǎn)品做好,有很多方面的問題要解決。
組建完善 AIG 的同時,百度研究院招攬行業(yè)頂尖人才也有進展。你對 AI 技術(shù)平臺體系發(fā)展的設(shè)想跟接下來一個明確的目標規(guī)劃是怎么樣的?
這個體系,就是作為百度 AI 技術(shù)的平臺,我們首先當然還是希望保持 AI 技術(shù)的領(lǐng)先。不管是現(xiàn)在業(yè)務(wù)需要的應(yīng)用技術(shù),還是對未來的布局,我們希望持續(xù)地往前走,持續(xù)地研發(fā)領(lǐng)先的 AI 技術(shù)。另一方面,我們要積極應(yīng)用 AI 技術(shù),不管是公司內(nèi)還是公司外。公司內(nèi)我們支持公司的各種重要業(yè)務(wù),支持方式又分兩種,一種是平臺化的支持,一種是定制化的支持。能力越來越強,平臺化支持業(yè)務(wù)的比例也會提升。持續(xù)提升的話,單位資源支持的業(yè)務(wù)會更多,同時重要的業(yè)務(wù)我們會以定制化的方式支持。對外的目標,就是我們的平臺生態(tài)戰(zhàn)略。同時,對于一些重要的合作伙伴,也和內(nèi)部的機制類似,會有定制化的支持,雙方一起聯(lián)合開發(fā)。
整體上從技術(shù)到應(yīng)用,就是這樣一個邏輯。當然,要做好這些事,我們就要保持一個非常強大的,好的團隊,這也是剛才提到的我們在招攬人才。外界看到了我們發(fā)布的引進頂尖人才的信息,我們內(nèi)部的人才也在不斷成長。無論外部引進還是內(nèi)部培養(yǎng),都是在持續(xù)進行的。
你認為根據(jù)你想要做到的事情,需要有一些改變嗎?比如說人的配備,或者是說架構(gòu)上,還有一些部門之間的協(xié)調(diào)。
如果說改變,肯定持續(xù)會有。組建 AIG 到現(xiàn)在不到一年,其實已經(jīng)有了一系列變化。這個變化隨著技術(shù)的發(fā)展,業(yè)務(wù)需求的發(fā)展持續(xù)會有,但不會有大的波動。雖然有時候外面看到我們的某一個動作會覺得驚訝,但在我們看來,很多事都是水到渠成的,發(fā)展到那一步,就是要有那個變化了。
技術(shù)部門更強化技術(shù)的產(chǎn)出,一方面會有定制化,另一方面也會強化平臺化的能力。相同的人力資源下,我們能支持的業(yè)務(wù)方向,會隨著平臺化能力增強而增加。因為很多業(yè)務(wù)不需要專門投入人力,直接調(diào)用平臺上的技術(shù)就行了。
另一方面,研究院也在加強,上個月剛剛宣布新增加了兩個實驗室,而且大家可以看到,增加的思路是有變化的。之前 IDL、BDL,包括硅谷的 AI Lab,更多是以技術(shù)來命名的,就是深度學(xué)習(xí)、大數(shù)據(jù)、AI 技術(shù)。新增加的兩個實驗室應(yīng)用色彩更重一些,一個是商業(yè)智能,一個是機器人與自動駕駛。這是因為在我們看來,偏前瞻基礎(chǔ)的幾個 Lab 做得不錯,但我們同時也會強調(diào)應(yīng)用導(dǎo)向。我們做商業(yè)智能,做機器人、自動駕駛,其實都是沿著這個思路在把研究院建得更完整。
「管理上有所為,有所不為,而且在不同階段要有不同的所為和不為」
你其實一直都是負責多條業(yè)務(wù)線的,不管是早的第一個階段四年的時間,不同的技術(shù)方向,后面又是不同的產(chǎn)品業(yè)務(wù)方向,現(xiàn)在同時還要推進一些前沿技術(shù)的研究。你怎么平衡多線不同的任務(wù)?
因為不是我一個人在戰(zhàn)斗,我有團隊。我每往前走一步的時候,后面那些事情都會有人給頂起來了。否則的話,我的精力已經(jīng)被耗干,我不可能再開辟一個新的方向。這個過程當中,團隊的培養(yǎng)是非常重要的。我希望每一個位置上不斷有人,有非常強的人能獨擋一面,能頂住,而且他還有接班人,還有后備,每一步都是這樣的。因此,雖然我負責的事越來越多,但每條線上都有一群很強的人,那些人都能獨擋一面。這時候我才有可能不斷的去開拓新的方向或者新的業(yè)務(wù)。面對新方向或新業(yè)務(wù),對我來說,除了選方向,定目標這些事情,非常重要的也要把團隊搭建好。團隊無非或者是自己培養(yǎng),或者是引進。我們的團隊,的確引進了很多非常頂尖的人才,但如果你要算比例,百度自己培養(yǎng)起來的肯定更多。
你的管理風(fēng)格是怎么樣的?
首先我認為,團隊也好,業(yè)務(wù)也好,或者甚至一個公司,如果出問題,很多時候其實都是在管理上出了差錯。管理上有所為,有所不為,而且在不同階段要有不同的所為和所不為。
初期的時候,我把目標定得比較細,會把團隊各方面都理好。后期團隊已經(jīng)運行得比較成熟了,我開始往后退。退的意思是我抓重要的,宏觀的事,甚至我選好幾個重要的人,盯一盯,其他事我就可以適當放手了。
這樣我才可以做更多事,還有很重要的一點,只有充分授權(quán),真正做事的人才有發(fā)揮空間,才有更大的積極性,才會快速成長。我一直強調(diào),做管理除了把事要做好,特別要強調(diào)人的培養(yǎng)。如果下面的人沒有成長,我自己也不可能再往前走,也沒法做更多的事。
百度還是非常典型的技術(shù)工作者的方式。
我們總說「簡單可依賴」,外邊可能有些不完全理解,但是內(nèi)部我們的確就是這樣一種模式在工作,也就是討論任何事都力求簡單直接,有問題直截了當,就事論事,談?wù)搯栴},解決問題,基本上這個效率是很高的。
「AI 其實是一個進化的過程,不是一個簡單的訓(xùn)練過程」
之前你在一個采訪里面也說到,在每天數(shù)十億次的用戶請求千錘百煉之下,百度的人工智能技術(shù)已經(jīng)是真正實用的人工智能的技術(shù)了。什么才叫真正實用的 AI 技術(shù)?
如果要用一句話說,真正實用就是真正能解決某一個應(yīng)用問題。為什么我說我們在千錘百煉下就更能解決這些問題?因為那些技術(shù)每天就是在解決各種應(yīng)用的問題。像搜索里面,用戶雖然終看到的就是一個非常簡潔清晰的結(jié)果,但背后要解決的問題非常多。每一項技術(shù),都是在具體應(yīng)用問題上打磨,然后在真實的數(shù)據(jù)上訓(xùn)練,隨著我們的應(yīng)用越來越多,數(shù)據(jù)越來越多,訓(xùn)練的模型也會越來越好。同樣一個算法,可能我們相配套訓(xùn)練出來的模型就是更好的。同時我們也積累了很多真實的解決問題的經(jīng)驗,比如說同樣一個問題,我到底選擇什么樣的算法?怎樣調(diào)節(jié)這個模型,甚至怎么樣篩選數(shù)據(jù)?如果僅僅懂算法,是不足以把這些事情做好的。而現(xiàn)在我們因為有開放平臺,同時也服務(wù)了很多合作伙伴的需求,我們也看到更多問題,這本身就是一個迭代進化的過程。
所以我認為 AI 其實是一個進化的過程,不是一個簡單的訓(xùn)練過程。傳統(tǒng)上我們搞人工智能是,有算法,有數(shù)據(jù),有訓(xùn)練,訓(xùn)練出一個模型,就完成了,這是靜態(tài)的。但在我看來,更多的是我們的 AI 系統(tǒng)在實際場景中去用,用的過程中,跟應(yīng)用、跟用戶去互動,數(shù)據(jù)也會不斷增加,在這個過程中整個系統(tǒng)的模型、算法會變得更好。這是技術(shù)在場景里進化,不斷改進的過程。這個過程不是閉環(huán),而是進化,我不認為 AI 是在這樣一個環(huán)里,它會不斷地往前走。
你近比較關(guān)注的一些技術(shù)點都是哪些?有哪些產(chǎn)業(yè)應(yīng)用方向是你比較看好的?
AI 涉及到的技術(shù)非常多,就像我們剛才說到的算法、算力、數(shù)據(jù);有感知層的,語音、圖像、AR 等等;認知層的,自然語言處理、知識圖譜、用戶畫像等,每個層面都會面臨一些不同的問題。
比如說數(shù)據(jù)層面,你可以說它是技術(shù)的一部分,也可以說它是獨立的,但跟技術(shù)是高度相關(guān)的。數(shù)據(jù)首先就是怎么樣能收集更多的數(shù)據(jù),更有效地去處理,更有效地去挖掘其中的價值。理論上來講,在其它資源都是無限的情況下,數(shù)據(jù)越多越好,但現(xiàn)在其它資源畢竟不是無限的。
同時,計算這部分也有很大變化,從 CPU 到 GPU 再到 FPGA,以及現(xiàn)在各類定制化芯片。在我看來,會有越來越多種計算平臺,異構(gòu)計算會很重要,同時邊緣計算也會很重要。人工智能很多東西早都是跑在大服務(wù)器上,但是現(xiàn)在越來越多需要能在端上計算,所以算力方面,我們既要重視云的能力,也要重視端的能力,這是非常重要的一點。
感知層方面,過去這些年,深度學(xué)習(xí)這波浪潮首先是在感知層,像語音、圖像這些領(lǐng)域獲得成功的,同時這些領(lǐng)域也是受深度學(xué)習(xí)帶來的紅利影響進步大的,基本上已經(jīng)達到實用的水平。接下來要做什么?實際上更多會跟硬件去結(jié)合,跟傳感器、攝像頭、麥克風(fēng)等結(jié)合,總之軟硬結(jié)合會變得越來越重要。
認知層上,深度學(xué)習(xí)帶來的提升還遠不如感知層。這其中一個本質(zhì)的原因,我認為是,用深度學(xué)習(xí)技術(shù)解決語音、圖像問題的時候,更多還是把它當成模式識別的問題來解決;但認知層的問題,遠遠大于模式識別。比如你講一段語言,語言背后有豐富的涵義,語言是人對整個真實世界的認知、描述和表達,跟物理世界、人的精神世界、背景知識都是相關(guān)的。這些東西如果不具備,僅僅把它當成一個字符串用模式識別的方法來處理,可以解決一些問題,但是沒有辦法解決本質(zhì)問題。所以到目前為止的深度學(xué)習(xí)技術(shù),或者說人工智能技術(shù)還不足以完全刻畫所有這些背后的東西。
人類的語言是可以去描述整個真實世界的。反過來,理解人類的語言,理解整個真實世界,要難得多。所以這也是我們?yōu)槭裁粗匾曋R,花很大力氣做知識圖譜的原因。百度的知識圖譜到目前為止是我所知范圍內(nèi)大的,有幾千億事實在里面,這是別人誰也沒有的量級。我們在這方面的優(yōu)勢來源于百度傳統(tǒng)的一些優(yōu)勢,比如說搜索,搜索把互聯(lián)網(wǎng)所有的網(wǎng)頁抓取回來,進行分析處理,并建索引。搜索引擎基本上構(gòu)成了整個互聯(lián)網(wǎng)的鏡像。而由于現(xiàn)在大量的需求和數(shù)據(jù)在持續(xù)不斷的線上化,互聯(lián)網(wǎng)又構(gòu)成對真實世界的鏡像,所以透過搜索引擎的這些數(shù)據(jù),我們可以從中挖掘知識,對整個真實世界更好地建模,更好地進行知識的積累。我認為,有這樣一個過程,認知層的技術(shù)才能逐漸往前走,朝著通用人工智能發(fā)展,這是很重要的一條路徑。當然通用人工智能還是比較遠的一件事。
現(xiàn)在國內(nèi)的學(xué)者或?qū)W生發(fā)論文的數(shù)量越來越龐大了,有人也會覺得國內(nèi)的比如說自然語言處理,跟美國的距離縮小了。你怎么看?
首先差距是不是在縮?。靠隙ㄊ窃诳s小,甚至有一些方面,我們已經(jīng)反超。尤其是在應(yīng)用技術(shù)領(lǐng)域,有些我們做得比別人更早。以機器翻譯為例,現(xiàn)在主流都轉(zhuǎn)到神經(jīng)網(wǎng)絡(luò)的翻譯上了。我記得 2016 年 9 月底,Google 發(fā)布了他們的神經(jīng)網(wǎng)絡(luò)翻譯。但是你上網(wǎng)了解就會發(fā)現(xiàn),百度的神經(jīng)網(wǎng)絡(luò)翻譯 2015 年上半年就已經(jīng)上線了,比 Google 要早一年多。有些領(lǐng)域,我們的確是世界上早開始的,對科技圈來講,早一年多是一個很大的領(lǐng)先優(yōu)勢了。
但我們的基礎(chǔ)研究還是相對落后的。比如現(xiàn)在這些主流的方法,深度神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí),還都是來自于歐美。我覺得現(xiàn)在越來越多的中國人進入這一行,越來越多的人在做研究,我相信慢慢一定會產(chǎn)生好的基礎(chǔ)研究。但是到目前為止,我們的確還是落后的。
我們在看技術(shù)領(lǐng)先性時,會把它區(qū)別為一些問題是屬于基礎(chǔ)性的問題,一些問題可能是在應(yīng)用的過程當中發(fā)現(xiàn)的。
是,解決應(yīng)用的問題我們能力已經(jīng)很強了。
但大家會有一個觀念是,后面這種研究能力是弱于基礎(chǔ)研究的。
不能說誰強誰弱,而是有一個先后關(guān)系的問題。就是說你沒有基礎(chǔ)研究,后面也不可能用它們來解決應(yīng)用問題。但是只有基礎(chǔ)研究也是不夠的,類比一下,比如說愛因斯坦的確很偉大,相對論也好,質(zhì)能方程也好,的確是非常重要的基礎(chǔ)。但是有了這些,離真正造出原子彈,建成核電站還差得很遠很遠,中間還有非常長的路,這些應(yīng)用之路其實也是非常重要的。而且一旦這些路走通了,走到應(yīng)用了,大家看到應(yīng)用的價值了,會有更多的人進入,會有更多的資源進入,會反過來再促進基礎(chǔ)技術(shù)的發(fā)展。所以應(yīng)用非常重要,在現(xiàn)實場景下能發(fā)現(xiàn)問題并解決掉,很多時候也是在找新方法。大家都已經(jīng)看到它的重要性,大量的人,而且是聰明人都進來了,中國在這方面遲早會有突破。
機器之能開年對話
8位AI行業(yè)局內(nèi)人講述對過去、對未來的看法官方微博
官方微信公眾號
官方百家號