創(chuàng)業(yè)詞典網(wǎng) 創(chuàng)業(yè)知識學習分享
歡迎關(guān)注“創(chuàng)事記”的微信訂閱號:sinachuangshiji 文/李開復 1 今天跟大家講個故事。
1983-1988年,我正在卡內(nèi)基·梅隆大學讀計算機博士。
我正忙著暑期教書,秋天投身奧賽羅人機博弈(黑白棋游戲,那是機器第一次真正意義上打敗人類冠軍的比賽)。
我的導師瑞迪教授(Raj Reddy,圖靈獎得主、卡內(nèi)基梅隆大學計算機系終身教授、美國工程院院士)從美國國防部得到了300萬美元的經(jīng)費,用來做不指定語者、大詞庫、連續(xù)性的語音識別。
也就是說,他希望機器能聽懂任何人的聲音,而且可以懂上千個詞匯,懂人們自然連續(xù)說出的每一句話。
這三個問題都是當時無解的問題。
而瑞迪教授大膽地拿下項目,希望同時解決這三個問題。
他在全美招聘了30多位教授、研究員、語音學家、學生、程序員,以啟動這個有史以來最大的語音項目。
我也在這30人名單之內(nèi)。
當時的科研背景是,業(yè)界已經(jīng)有類似今天深度學習的算法,但一直沒有實現(xiàn)數(shù)據(jù)標準化,數(shù)據(jù)量也不足夠大。
美國幾大語音識別實驗室(如MIT、 CMU、 SRI、 IBM、貝爾實驗室)都是各用各的數(shù)據(jù)庫,測試數(shù)據(jù)不同,訓練數(shù)據(jù)不同,使用的語言模型不同,測試的詞匯量也不同。
所以都各稱業(yè)界第一,大家莫衷一是。
而每個大公司都有自己的商業(yè)需求,比如說在語音識別方面,當年做打字機的IBM想做語音打字機,壟斷美國電信的AT&T要求貝爾實驗室識別電話號碼,所以大公司并沒有動力來幫助小公司或?qū)W校。
而小公司和學校,往往只有資源做些較小的數(shù)據(jù)集,結(jié)果通常也不如大公司的好。
不僅如此,數(shù)據(jù)不標準對AI研究而言是致命的,最后導致很多問題,包括: 1、因為測試語料庫不同,最后識別結(jié)果,大家無法復制,也無法驗證。
彼此不認可,而且因為數(shù)據(jù)沒有打通,算法就更不可能打通了。
2、因為每家做的領(lǐng)域不同,最后的結(jié)果都不可比。
有些領(lǐng)域詞匯量小,比較容易,但是做出結(jié)果也可能不能通用。
有些領(lǐng)域詞匯量大,但是約束很多,所以能說的內(nèi)容不多,導致比較容易識別,也不能通用。
3、因為每家訓練集不一樣大,而訓練集越大,一般結(jié)果越好。
所以,有可能結(jié)果做的好,被認為并不是靠算法,而是靠數(shù)據(jù)量大。
4、對于學術(shù)單位來說,最大的問題來自于沒有足夠的資源(也沒有興趣)收集、清洗、標注大量的語料。
對于小公司來說,語料和計算力都是問題。
最后,瑞迪教授計劃采用“專家系統(tǒng)”來完成項目,因為這個方法需要的數(shù)據(jù)有限。
專家系統(tǒng)是早期人工智能的一個重要分支,你可以把它看作是一類具有專門知識和經(jīng)驗的計算機智能程序系統(tǒng),一般采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由領(lǐng)域?qū)<也拍芙鉀Q的復雜問題。
但我不認同。
2 之前參加過的奧賽羅的人機博弈,讓我對統(tǒng)計概念有了充分的理解,我對瑞迪教授的研究方法產(chǎn)生動搖。
我相信建立大型的數(shù)據(jù)庫,然后對大的語音數(shù)據(jù)庫進行分類,有可能解決專家系統(tǒng)不能解決的問題。
另外,在1985年,美國標準局 (NationalInstitute of Standards and Technology)也意識到數(shù)據(jù)不標準會影響科研進步。
所以在語音識別問題上,標準局設定了標準的語音和語言的訓練集、測試集。
要求每個學校的每個團隊都用同樣的訓練集來訓練模型,可以自己調(diào)好系統(tǒng)參數(shù),比賽最后一天大家拿到數(shù)據(jù),有一天時間跑出結(jié)果,大家評比。
我從這個標準數(shù)據(jù)集和測試看到機會。
再三思考后,我決定鼓足勇氣,向瑞迪教授直接表達我的想法。
我對瑞迪說:“我希望轉(zhuǎn)投統(tǒng)計學,用統(tǒng)計學來解決這個‘不特定語者、大詞匯、連續(xù)性語音識別’。
” 我以為瑞迪會有些失望,沒想到他一點都沒有生氣,他輕輕地問:“那統(tǒng)計方法如何解決這三大問題呢?” 瑞迪教授耐心地聽完我激情的回答后,用他那永遠溫和的聲音告訴我:“開復,你對專家系統(tǒng)和統(tǒng)計的觀點,我是不同意的,但是我可以支持你用統(tǒng)計的方法去做,因為我相信科學沒有絕對的對錯,我們都是平等的。
而且,我更相信一個有激情的人是可能找到更好的解決方案的。
” 那一刻,我的感動無以倫比。
因為對一個教授來說,學生要用自己的方法作出一個與他唱反調(diào)的研究。
教授不但沒有動怒,還給予充分的支持,這在很多地方是不可想象的。
統(tǒng)計學需要大數(shù)據(jù)庫,我們?nèi)绾尾拍芙⑵鸫蟮臄?shù)據(jù)庫呢? 瑞迪教授看到我愁眉不展的樣子,再一次給了我支持。
他說,“開復,雖然說我還是對你的研究方法有所保留,但是,在科學的領(lǐng)域里,其實也無所謂老師和學生的區(qū)別,我們都是面臨這一個難題的攻克者,所以,如果你真的需要數(shù)據(jù)庫,那么,讓我去說服政府幫你建立一個大的數(shù)據(jù)庫吧!” 瑞迪教授后來說服了美國政府部門和美國標準局收集并提供了大量數(shù)據(jù)。
我用美國標準局提供的標準大數(shù)據(jù),跟多家拿國家錢的機構(gòu)數(shù)據(jù),后來一些不拿國家錢的單位(如:IBM,AT&T)也參與進來,我可使用的數(shù)據(jù)越滾越大。
除了大數(shù)據(jù),統(tǒng)計學的方法還需要非常快的機器,瑞迪教授又幫我購買了最新的Sun 4機器。
此后每次有新的機器,他都會說:“先問問開復要不要。
” 做論文的兩年多,我至少花了他幾十萬美元的經(jīng)費。
瑞迪教授的寬容再次讓我感覺到一種偉大的力量,這是一種自由和信任的力量。
3 在導師的支持下,我開始了瘋狂的科研工作。
當時,我?guī)е硪晃粚W生一起用統(tǒng)計的方法做語音識別。
同時,其他30多人用專家系統(tǒng)做同樣的問題。
從方法上來說,我們在競爭,但是在瑞迪教授的領(lǐng)導下,我們分享一切,我們用同樣的樣本訓練和測試。
在1986年底,我的統(tǒng)計系統(tǒng)和他們的專家系統(tǒng)達到了大約一樣的水平,40%的辨認率。
這雖然還是完全不能用的系統(tǒng),但畢竟是學術(shù)界第一次嘗試這么難的問題,大家還是比較欣喜和樂觀的。
1987年5月,我們大幅度地提升了訓練的數(shù)據(jù)庫,采用了新的建模方法,不但能夠用統(tǒng)計學的方法學習每一個音,而且可以用統(tǒng)計學的方法學習每兩個音之間的轉(zhuǎn)折。
針對有些音的樣本不夠,我又想出了一種方法(generalized triphones)來合并其他的音。
這三項工作居然把機器的語音識別率從原來的40%提高到了80%!后來又提高到96%。
統(tǒng)計學的方法用于語音識別初步被驗證是正確的方向。
大家都相信了我用的機器學習方法和隱馬可夫模型算法,并且拋棄了不可行的專家系統(tǒng)(專家系統(tǒng)只達到60%的識別率)。
在我的博士論文基礎(chǔ)上,后來的Nuance,微軟、蘋果等公司做出了業(yè)界最領(lǐng)先的產(chǎn)品。
1988年4月,我受邀到紐約參加一年一度的世界語音學術(shù)會議,發(fā)表學術(shù)論文。
這個成果撼動了整個學術(shù)領(lǐng)域。
這是當時計算機領(lǐng)域里最頂尖的科學成果。
語音識別率大幅度提高,讓全世界語音研究領(lǐng)域閃爍出一道希望的光芒,從此,所有以專家系統(tǒng)研究語音識別的人全部轉(zhuǎn)向了統(tǒng)計方法。
會后,《紐約時報》派記者JohnMarkoff來到匹茲堡對我作了采訪,文章發(fā)表于1988年7月6日,占了科技版首頁的整個半版。
在這篇文章里,馬可奧夫大力報道了我的論文的突破。
當時,我只覺得在和一個和藹可親的記者聊天,事后,我才知道這是一名才華橫溢的著名記者,三次提名普利策獎,并在斯坦福兼教。
這是1988年,《紐約時報》對我博士論文的報道 后來,《商業(yè)周刊》把我的發(fā)明選為1988年最重要的科學發(fā)明。
年僅26歲初出茅廬的我,第一次亮相就獲得這樣的成功,讓我感到很幸運,也讓我有了繼續(xù)向科技高峰攀爬的動力。
而我也因此拿到了卡內(nèi)基·梅隆大學的計算機博士學位,這離我1983年入學只有4年半的時間。
在卡內(nèi)基·梅隆大學的計算機學院,同學們平均6年以上才能拿到博士學位,我用這么短的時間拿到博士學位,是一項新的紀錄。
我也因此破格留校,成為一名26歲的助理教授。
4 遺憾的是,雖然我找到了方向和基本方法,但以當時的數(shù)據(jù)量級和計算水平,語音AI研究很難有商業(yè)化機會。
我最終還是離開科研界,進入商界,用產(chǎn)品改變世界。
30年過了,AI發(fā)展的土壤終于肥沃起來。
伴隨互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)而來的大數(shù)據(jù)、高效的計算機運算能力等條件都齊備了。
科研人員需要的數(shù)據(jù)集不再那么難以觸碰,只是需要有人牽頭讓更多的公司參與進來。
這在30多年前,我還是一個AI科研人員的時代,能接觸到真實世界里如此海量的數(shù)據(jù),是個遙不可及的夢想。
我當年受惠于瑞迪教授的幫助和指導,今天也非常希望能給更多和我一樣的年輕人,創(chuàng)造研究機會和條件。
所以,昨天創(chuàng)新工場、搜狗、今日頭條聯(lián)合發(fā)起“AI Challenger 全球AI挑戰(zhàn)賽”。
三家公司分別投入大量資金、也拿出千萬量級高質(zhì)量開放數(shù)據(jù)集與寶貴GPU資源。
同時,我也倡導商界和科研界能采用大量的數(shù)據(jù)和標準的測試方法,也歡迎更多的數(shù)據(jù)公司能夠參與到這個平臺里。
希望我們推出的Challenger.ai,可以幫助到中國AI人才成長。
在我看來,這次AIChallenger絕對不只是一個活動,也絕對不只是一個獎金200萬、年底就結(jié)束的競賽,這是推進中國AI人才成長的重大催化劑。
希望3年或5年后,我們再來回顧這一段時光,我們發(fā)現(xiàn)中美AI人才之間沒有落差了,還能想到AI Challenger在這樣重大過程中扮演了一個小小角,我就感到這一切都有價值。
歡迎大家登錄大賽官網(wǎng)Challenger.ai,獲取信息并報名。
關(guān)于這場大賽的具體信息可點擊文末的鏈接了解(要在電腦頁面上才能報名哦)。
你們可能無法想象,我有多么羨慕你們,生活在數(shù)據(jù)爆炸的時代,有人提供數(shù)據(jù)和獎金池,讓有才華的人一展拳腳。
下一篇:王健林最新演講:解密實體商業(yè)的4種新戰(zhàn)法 下一篇 【方向鍵 ( → )下一篇】
上一篇:周亞輝:互聯(lián)網(wǎng)下半場是偽命題 上一篇 【方向鍵 ( ← )上一篇】
快搜