通用人工智能什么時候?qū)崿F(xiàn),自今年清北強(qiáng)強(qiáng)聯(lián)合舉辦通人工智能實驗班之后,我國通用人工智能領(lǐng)域的研究開始廣受大家的關(guān)注,大家最好奇的一點是通用人工智能什么時候才能夠?qū)崿F(xiàn),小編收錄整理了一些信息,供大家參考。
通用人工智能什么時候?qū)崿F(xiàn)
在 2015 年,筆者對通用人工智能何時能夠?qū)崿F(xiàn)做出了以下預(yù)測:
到 2045 年,有 10% 的可能性。
到 2050 年,有 50% 的可能性。
到 2070 年,有 90% 的可能性。
現(xiàn)在已經(jīng)是 2020 年了,筆者將預(yù)測更新為如下:
到 2035 年,有 10% 的可能性。
到 2045 年,有 50% 的可能性。
到 2070 年,有 90% 的可能性。
筆者將 90% 的可能性的年份保持不變,但將其他一切都調(diào)得更快了?,F(xiàn)在,如果你想知道筆者為什么選擇這些特定的年份,以及為什么筆者用 10 年而不是 5 年或 15 年來改變,你將會失望的。因為這些都是筆者靠直覺進(jìn)行預(yù)測的。重要的是為什么筆者的部分想法發(fā)生了變化——你可以在這個基礎(chǔ)上,選擇自己的時間軸進(jìn)行調(diào)整。
讓筆者們先從簡單的部分開始。
筆者應(yīng)該更不確定
如果說,筆者從來沒有對機(jī)器學(xué)習(xí)的研究感到驚訝,那將是一件不可思議的怪事。從歷史上看,預(yù)測一個研究領(lǐng)域的發(fā)展軌跡是很難的。如果筆者從來沒感到驚訝,筆者會認(rèn)為這是由于筆者個人沒有考慮足夠大的想法所致。
同時,當(dāng)筆者回想起過去的五年,筆者相信筆者比平常更感到驚訝。并不是所有的事情都朝著積極的方向發(fā)展。無監(jiān)督學(xué)習(xí)比筆者想象的要好得多。深度強(qiáng)化學(xué)習(xí)比筆者預(yù)期的要好一些。而遷移學(xué)習(xí)比筆者想的要慢一些。綜合起來,筆者決定擴(kuò)大結(jié)果的分配范圍,所以,現(xiàn)在筆者把 35 年的時間分配到 10% ~ 90% 的時間間隔,而不是 25 年。
筆者還注意到,筆者在 2015 年的預(yù)測將 10% ~ 50% 放在 5 年的范圍內(nèi),50% 到 90% 放在 20 年的范圍內(nèi)。通用人工智能是一個長尾事件,確實有可能永遠(yuǎn)不可行,但 5 ~ 20 的拆分顯然是不科學(xué)的。筆者正在相應(yīng)地調(diào)整。
現(xiàn)在,筆者們到了最難的部分。為什么筆者選擇將 10% 和 50% 的年份更靠近現(xiàn)在呢?
筆者沒有考慮到更好的工具
三年前,筆者曾和一個人聊天,他提到 通用人工智能沒有“火警警報”。筆者告訴他們,筆者知道 Eliezer Yudkowsky 寫了另一篇關(guān)于通用人工智能的文章,筆者還注意到 Facebook 的朋友們分享了這篇文章,但筆者還沒有來得及閱讀。他們將這篇文章總結(jié)為:“通用人工智能何時發(fā)生,永遠(yuǎn)不會很明顯。即使是在它發(fā)生前幾年,人們也會認(rèn)為通用人工智能還很遙遠(yuǎn)。等到大家都認(rèn)識到人工智能安全是世界上最重要的問題時,就已經(jīng)太晚了。
筆者的反應(yīng)是,“好吧,這和筆者從 Facebook 的時間軸上得到的信息相符。就在費米參加曼哈頓計劃前幾年,筆者就已經(jīng)知道 費米預(yù)測核連鎖反應(yīng)很可能是不可能 的。最近,Rémi Coulom 表示,超人類的圍棋程序大約還有 10 年時間,一年后才出現(xiàn) 最初的可能跡象,兩年后,AlphaGo 正式問世。筆者也已經(jīng)知道人工智能安全的 常識>) 觀點。”筆者覺得這篇文章不值得花時間去閱讀。
(如果你還沒有聽過這些常識的爭論,下面是簡短版:大多人認(rèn)為人工智能安全是值得的,即使沒有人公開這么說,因為每個人都可能擔(dān)心,如果他們主張采取激烈行動,其他人就會說他們瘋了。即使每個人都同意,這種情況也可能發(fā)生,因為他們不知道每個人都同意。)
幾年后,出于無聊,筆者重新閱讀了這篇文章,現(xiàn)在筆者得向 Facebook 上那些只分享歷史事件和常識的好友們抱怨了。盡管那篇帖子的總結(jié)是正確的,但是,筆者發(fā)現(xiàn)有用的想法都在總結(jié)之外。筆者是那么信任你,你就不能把泡沫過濾掉嗎?你怎么可以這樣讓筆者失望呢?
那篇“火警警報”的帖子中的一部分提出了一些假設(shè),解釋了為什么人們聲稱通用人工智能是不可能的。其中一個假設(shè)是,研究人員過于關(guān)注使用現(xiàn)有工具進(jìn)行工作的難度,并將這種難度推斷到未來,得出結(jié)論:筆者們永遠(yuǎn)不可能創(chuàng)造出通用人工智能,因為現(xiàn)有的工具還不夠好。這是個槽糕的論點,因為你的推斷也需要考慮到研究工具也隨著時間的推移而改進(jìn)。
“工具”的意思有點模糊。一個明顯的例子是筆者們的編碼庫。在過去,人們用 Caffe、MATLAB 和 Theano 來編寫神經(jīng)網(wǎng)絡(luò),而現(xiàn)在主要是 TensorFlow 和 PyTorch。一個不太明顯的例子是用于計算機(jī)視覺的特征工程。最后一次有人談?wù)撚嬎銠C(jī)視覺的 SIFT 特征 是什么時候?那是好多年以前,它們現(xiàn)在已經(jīng)過時了。但特征工程并沒有消失,只是變成了 卷積神經(jīng)網(wǎng)絡(luò) 的架構(gòu)調(diào)優(yōu)。對于計算機(jī)視覺研究者來說,SIFT 特征是老舊的工具,卷積神經(jīng)網(wǎng)絡(luò)則是嶄新的工具,而計算機(jī)視覺是被更好的工具所強(qiáng)化的應(yīng)用。
然而對筆者來說,筆者并不是計算機(jī)視覺專家。筆者認(rèn)為用于控制的機(jī)器學(xué)習(xí)是一個更有趣的問題。但是,在基于圖像的環(huán)境中,你必須進(jìn)行計算機(jī)視覺來進(jìn)行控制,如果你想處理現(xiàn)實世界,基于圖像的輸入是最好的選擇。所以對筆者來說,計算機(jī)視覺是工具,機(jī)器人是應(yīng)用,計算機(jī)視覺的進(jìn)步推動了許多有前途的機(jī)器人學(xué)習(xí)成果。
[AlexNet](https://en.wikipedia.org/wiki/AlexNet) 自動學(xué)習(xí)的過濾器,而 AlexNet 本身已被更好的工具 [ResNet](https://en.wikipedia.org/wiki/Residual_neural_network) 淘汰了。
筆者是研究工具的大力支持者。筆者認(rèn)為就平均而言,人們低估了它們的影響力。因此,在閱讀了人們不能正確預(yù)測工具改進(jìn)的假設(shè)之后,筆者進(jìn)行了思考,認(rèn)為自己也沒有正確地解釋它。那應(yīng)該被砍掉幾年。
在機(jī)器學(xué)習(xí)更多的經(jīng)驗方面,進(jìn)展的明顯組成部分是你的想法和計算預(yù)算,但也有一些不那么明顯的,比如,你的編碼和調(diào)試技能,以及你使用計算機(jī)的能力。如果代碼沒有使用所有可用的處理器,那么每臺計算機(jī)有多少個處理器就并不重要。有很多令人驚訝的機(jī)器學(xué)習(xí)應(yīng)用,主要的增值來自己于更好的數(shù)據(jù)管理和數(shù)據(jù)匯總,因為這些工具可以騰出決策時間來做其他事情。
一般來說,每個人的研究工具都有一定的缺陷。研究是為了做一些新的事情,自然也就會發(fā)現(xiàn)新的問題,為了解決三個月前還不存在的問題,人們就做出了完美的工具,這不太可能。因此,你現(xiàn)在的研究工具總是會讓人感覺不太好用,你就不應(yīng)該用它來爭論什么時間軸的問題。
研究棧有很多部分,整個棧中有不斷的改進(jìn),而且這些改進(jìn)中的大多數(shù)都有乘法效應(yīng)。乘數(shù)因素可以非常強(qiáng)大。一個簡單的例子是,要獲得 10 倍的更好結(jié)果,你可以通過范式轉(zhuǎn)換將一件事改進(jìn) 10 倍,或者可以將 10 件不同的事情 改進(jìn) 1.26 倍,它們加起來可以得到 10 倍的總體改進(jìn)。后者同樣具有變革性,但可能要容易得多,特別是你讓 10 位擁有不同技能的專家為了一個共同目標(biāo)而合作的時候。這就是企業(yè)如何成就一件事情的秘訣。
半監(jiān)督和無監(jiān)督學(xué)習(xí)正變得越來越好
從歷史上來看,無監(jiān)督學(xué)習(xí)一直處于這種奇怪的位置,它顯然是正確的學(xué)習(xí)方式,但如果你想讓某件東西盡快發(fā)揮作用,這也完全是在浪費時間。
一方面,人類學(xué)習(xí)的大多數(shù)東西都沒有標(biāo)簽,所以機(jī)器學(xué)習(xí)系統(tǒng)也不應(yīng)該需要什么標(biāo)簽。另一方面,2015 年的深度學(xué)習(xí)熱潮主要是由帶標(biāo)簽的大型數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)所推動的。當(dāng)時,Richard Socher 在推特上發(fā)布了一條引人入目的 推文:
與其花一個月的時間去琢磨一個無監(jiān)督機(jī)器學(xué)習(xí)的問題,還不如用一個禮拜的時間給一些數(shù)據(jù)貼上標(biāo)簽,然后訓(xùn)練一個分類器。
—— Richard Socher (@RichardSocher),2017 年 3 月 10 日
筆者不會說無監(jiān)督學(xué)習(xí)一直沒用。在 2010 年,人們普遍認(rèn)為,深度學(xué)習(xí)在開始監(jiān)督式學(xué)習(xí)之前,應(yīng)該先經(jīng)過一個無監(jiān)督的預(yù)訓(xùn)練步驟。參見 Erhan 等人在 JMLR 2010 發(fā)表的論文《為什么無監(jiān)督的預(yù)訓(xùn)練有助于深度學(xué)習(xí)?》(Why Does Unsupervised Pre-training Help Deep Learning?)。2015 年,像 GloVe 和 word2vec 這樣的自筆者監(jiān)督詞向量可以自動學(xué)習(xí)詞匯之間的有趣關(guān)系。作為一個 2015 年左右開始機(jī)器學(xué)習(xí)的人,這些無監(jiān)督學(xué)習(xí)的成功感覺就像是規(guī)則的例外。大多數(shù)其他應(yīng)用都依賴于標(biāo)簽。預(yù)訓(xùn)練的 ImageNet 特征是最接近一般行為的東西,這些特征是通過監(jiān)督式學(xué)習(xí)從頭開始學(xué)習(xí)的。
筆者一直都認(rèn)為,無監(jiān)督學(xué)習(xí)是未來的趨勢,也是正確的方式,只要筆者們弄清楚如何去實現(xiàn)。但是,伙計,筆者們已經(jīng)花了很長時間來嘗試實現(xiàn)。這讓筆者對過去幾個月的半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的論文印象深刻。Momentum Contrast(He 等人,VCPR 2020)相當(dāng)不錯,SimCLR(Chen 等人,ICML 2020)在此基礎(chǔ)上有所改進(jìn),Bootstrap Your Own Latent(Grill、Strub、Altché、Tallec、Richemond 等人,2020 年)在此基礎(chǔ)上也有所改進(jìn),然后是 GPT-3,這個筆者待會兒再講。
當(dāng)筆者在思考是什么讓機(jī)器學(xué)習(xí)變得困難時,趨勢線指向更大的模型和更大的標(biāo)記數(shù)據(jù)集。它們現(xiàn)在還在指那個方向。筆者的結(jié)論是,未來的機(jī)器學(xué)習(xí)進(jìn)展將受到標(biāo)簽要求的瓶頸。定義一個 10 倍大的模型很容易,而訓(xùn)練一個 10 倍大的模型卻更難,但它并不需要 10 倍多的人來工作。獲得 10 倍的標(biāo)簽就可以了。是的,數(shù)據(jù)標(biāo)簽工具會越來越好,Amazon Mechanical Turk 非常受歡迎,甚至有一些創(chuàng)業(yè)公司的使命就是提供快速的數(shù)據(jù)標(biāo)簽服務(wù)。但標(biāo)簽本質(zhì)上就是關(guān)于人類偏好的問題,這就很使它難逃脫人類的勞動。
強(qiáng)化學(xué)習(xí)的獎勵功能也有類似的問題。原則上,在你定義什么是成功后,模型就會找到解決方案。實際上,你需要一個人來檢查模型是否正在“黑掉”獎勵,或者你的獎勵函數(shù)是由人類評級者隱形定義的,這就變成了同樣的標(biāo)簽問題。
帶標(biāo)簽的大型數(shù)據(jù)集不會平白無故地出現(xiàn)。它們需要深思熟慮的、持續(xù)的努力才能產(chǎn)生。ImageNet 能夠在 CVPR 2019 上獲得時間測試獎 不是沒有原因的——那篇論文的作者發(fā)表并完成了這項工作。如果機(jī)器學(xué)習(xí)需要更大的標(biāo)記數(shù)據(jù)集來推動性能,并且模型不斷以數(shù)量級保持增長,那么你就會到達(dá)一個這樣的臨界點,取得進(jìn)展所需的人類監(jiān)督量將是瘋狂的。
(這甚至還沒有涉及到標(biāo)簽不完美的問題。筆者們發(fā)現(xiàn),在流行的基準(zhǔn)測試中使用的許多有標(biāo)簽的數(shù)據(jù)集就包含了大量的偏見。這并不奇怪,但現(xiàn)在它已經(jīng)越來越接近常識,用自由放任的標(biāo)簽系統(tǒng)構(gòu)建一個大型數(shù)據(jù)集,將不再可行。)
好吧,嗯,如果 10 倍的標(biāo)簽是個問題,那有沒有辦法繞過這個問題呢?一種方法是,如果你不需要 10 倍的標(biāo)簽來訓(xùn)練一個 10 倍大的模型。關(guān)于這方面的信息挺復(fù)雜的。一篇標(biāo)度律(Scaling law)的論文(Hestness 等人,2017 年)建議模型大小隨數(shù)據(jù)集大小次線性(sublinearly)增長。
筆者們期望擬合一個數(shù)據(jù)集的模型參數(shù)的數(shù)量應(yīng)該遵循 $s(m) \propto \alpha m^{\beta_p}$,其中 $s(m)$ 是一個擬合一個大小為 $m$ 的訓(xùn)練集所需的模型大小。
不同的問題設(shè)置具有不同的悉數(shù),圖像分類遵循 $\beta_p=0.573$ 冪定律,而語言建模遵循 $\beta_p \approx 0.72$ 線。
圖像分類趨勢線(左)和語言建模趨勢線(右)([來源:Hestity 等人,2017 年](https://arxiv.org/abs/1712.00409))
反過來說,這意味著數(shù)據(jù)集大小應(yīng)隨模型大小呈超線性增長:10 倍大的圖像分類模型應(yīng)該使用 $10^{1/0.573} = 55.6$ 倍的數(shù)據(jù)!那真是個可怕的消息啊!
但是,Kuplan 和 Candlish 在 2020 年發(fā)表的論文 卻提出了相反的關(guān)系:數(shù)據(jù)集的大小應(yīng)該隨著模型的大小而增長。他們只研究語言建模,但是在論文的第 6.3 節(jié)指出:
為控制過擬合,第 4 節(jié)的結(jié)果暗示筆者們應(yīng)該將數(shù)據(jù)集的大小擴(kuò)展為 $D \propto N^{0.74}$,其中 $D$ 是數(shù)據(jù)集大小,$N$ 是模型大小。
與 $D \propto N^{1/0.72}$ 的 Hestness 結(jié)果相比,這顯得很奇怪。數(shù)據(jù)集應(yīng)該比模型增長得快還是慢呢?
這兩個數(shù)字之間存在差異的原因是,Kaplan 結(jié)果是在假設(shè)固定的計算預(yù)算的情況下得出的。他們發(fā)現(xiàn)的一個關(guān)鍵結(jié)果是,在短時間內(nèi)訓(xùn)練一個非常大的模型比訓(xùn)練一個較小的模型來收斂效率更高。同時,據(jù)筆者所知,Hestness 結(jié)果總是使用訓(xùn)練過的模型來收斂。
來源:[Kaplan 和 Candlish,2020 年](https://arxiv.org/abs/2001.08361)
這有點離題了,但是輸入數(shù)字之后,筆者們得到模型大小每增加 10 倍,數(shù)據(jù)集大小就需要增加 4 到 50 倍。讓筆者們假設(shè) 4 倍的方面要大方。對于標(biāo)簽需求而言,4 倍的系數(shù)肯定要比 10 倍的系數(shù)好很多,但仍然是很多。
進(jìn)入無監(jiān)督學(xué)習(xí),這些方法正在變得越來越好,“標(biāo)簽”的意義正朝著更容易獲得的方向發(fā)展。GPT-3 是在一堆網(wǎng)絡(luò)抓取數(shù)據(jù)上進(jìn)行訓(xùn)練的,雖然也需要一些輸入處理,但在進(jìn)入模型訓(xùn)練之前,它并不需要人工驗證文本的每一句話。在足夠大的規(guī)模下,盡管看起來你的標(biāo)簽是嘈雜的,數(shù)據(jù)是混亂的,但這都是可以的。
這里有很大的潛力。如果你有 $N$ 個無監(jiān)督的例子,那么 $N$ 個帶標(biāo)簽的例子會更好,但要記住,標(biāo)簽是需要花費很多精力的。標(biāo)記數(shù)據(jù)集的大小受你所能承擔(dān)的監(jiān)督的限制,并且你可以用同樣的工作量獲得更多的無標(biāo)簽數(shù)據(jù)。
很多有關(guān)大數(shù)據(jù)的炒作都是由一些情節(jié)驅(qū)動的,這些情節(jié)顯示數(shù)據(jù)的創(chuàng)造速度比摩爾定律還快。大肆炒作最終還是失敗了,因為無知的高管不明白這一點:擁有數(shù)據(jù)與擁有有用的機(jī)器學(xué)習(xí)并不是一回事??捎脭?shù)據(jù)的真實數(shù)量要少得多。這引起了研究界的哄笑,但如果無監(jiān)督學(xué)習(xí)變得更好,甚至垃圾數(shù)據(jù)也變得稍微有用的話,那么筆者們就會成為笑柄。
無監(jiān)督學(xué)習(xí)已經(jīng)足夠好了嗎?當(dāng)然沒有,100% 絕對沒有。這比筆者預(yù)期的要近。筆者希望看到更多的論文使用與目標(biāo)任務(wù)無關(guān)的數(shù)據(jù)源,以及更多的“ImageNet 時刻”,通過“站在別人 GPU 時間的肩膀上”來構(gòu)建應(yīng)用。
GPT-3 的結(jié)果在質(zhì)量上比筆者預(yù)期的要好
在人們開始擺弄 GPT-3 之前,筆者已經(jīng)更新了筆者的時間軸估計,但 GPT-3 是促使筆者寫下本文解釋原因的動機(jī)。
筆者們在 GPT-3 上看到的是,語言是一個非常靈活的輸入空間。人們早就知道這一點了。筆者認(rèn)識一位從事自然語言處理的教授,他說,語言理解是一項人工智能完成的任務(wù),因為一臺假設(shè)的機(jī)器完全理解并且回答所有的問題,就像人類一樣。也有人認(rèn)為,壓縮是智能的代表。正如 Hutter Prize 網(wǎng)站上所論述的那樣,要壓縮數(shù)據(jù),就必須識別數(shù)據(jù)中的模式,如果你把模式識別看作是智能的一個關(guān)鍵組成部分,那么更好的壓縮器應(yīng)該更智能。
需要說明的是,這些并不是自然語言處理研究界的普遍觀點!關(guān)于 語言理解究竟意味著什么 這一問題,人們展開了激烈的爭論。筆者之所以提到它們,是因為這些觀點都是嚴(yán)肅的人所持有的,而 GPT-3 的結(jié)果支持這些觀點。
GPT-3 有很多東西,但它的核心是一個系統(tǒng),它使用大量的訓(xùn)練時間,將一個非常大的文本預(yù)料壓縮成一組較小的 Transformer>) 權(quán)重。最終的結(jié)果展示了一個令人驚訝的知識廣度,可以縮小到許多不同的任務(wù)中,只要你能將這個任務(wù)變成文本的提示,以種子模型的輸出。它是有缺陷,但技術(shù)演示的廣度是有點荒謬的。同樣值得注意的是,大多數(shù)這種行為都是由于善于預(yù)測文本的下一個標(biāo)記而產(chǎn)生的。
這個成功是上一節(jié)(更好的無監(jiān)督學(xué)習(xí))的一個具體例子,也是第一部分(更好的工具)的標(biāo)志。盡管在故事生成中有很多有趣的東西,但筆者最感興趣的是 代碼生成演示。它們看起來就像是“Do What I Mean”編程接口的早期跡象。
這太讓人興奮了。使用 GPT-3,筆者構(gòu)建了一個布局生成器,你只需在其中描述任何你想要的布局,它就會為你生成 JSX 代碼。
如果現(xiàn)有的技術(shù)演示可以提高 5 倍,那么,如果它們變成了具體細(xì)節(jié)變成的關(guān)鍵生產(chǎn)力助推器,筆者也不會感到驚訝。目前,系統(tǒng)設(shè)計、代碼驗證和調(diào)試很可能都是由人工來完成的,但很多編程都是在代碼內(nèi)“著色”。即使是低水平的功能也可能會改變游戲規(guī)則,就像 2000 年前的搜索引擎一樣。AltaVista 在 1998 年的訪問量排名第 11,肯定比 Google/Bing/DuckDuckGo 現(xiàn)在能做的還要糟糕。
筆者們可以看到,代碼生成有用的一個具體方式是用于機(jī)器學(xué)習(xí)工作。比如 神經(jīng)結(jié)構(gòu)搜索 和 黑盒超參數(shù)優(yōu)化。圍繞通用人工智能的常見爭論之一是 智能爆炸,而這類黑盒方法被視為一種潛在的智能爆炸機(jī)制。但是,它們長期以來一直存在一個關(guān)鍵的限制:即使你假定計算量是無限的,也必須有人實現(xiàn)代碼,從實驗參數(shù)到最終性能提供一個干凈 API??商剿鞯乃阉骺臻g從根本上受到人類所認(rèn)為的搜索空間維度的限制。如果你不設(shè)想搜索空間的一部分,機(jī)器學(xué)習(xí)就不能對它進(jìn)行探索。
機(jī)器人學(xué)習(xí)中的域隨機(jī)化也存在同樣的問題。這是筆者對 OpenAI Rubik Cube 結(jié)果 的主要批評。這篇論文讀起來像是一年來對 Rubik Cube 域隨機(jī)化搜索空間的發(fā)現(xiàn),而不是任何可泛化的機(jī)器人學(xué)習(xí)課程。最終的結(jié)果是基于一個從大量隨機(jī)模擬中學(xué)習(xí)泛化的模型,但這個模型之所以能達(dá)到這個效果,是因為人們花費了大量的精力來確定哪些隨機(jī)化值得實施。
現(xiàn)在想象一下,每當(dāng)你在模擬器中發(fā)現(xiàn)一個未知的新未知時,你可以非??焖俚貙崿F(xiàn)代碼的更改,將它添加到你的域隨機(jī)化搜索空間。嗯,這些方法看起來確實比較有前途。
GPT-3 當(dāng)然也存在一些問題。它有一個固定的注意力窗口。它沒有辦法從試圖預(yù)測下一個文本字符的過程中學(xué)習(xí)任何它還沒有學(xué)到的東西。要確定它知道什么,需要學(xué)習(xí)如何提示 GPT-3 給出你想要的輸出,而不是所有簡單的提示都能奏效。最后,它沒有意圖或代理的概念。它就是下一個詞的預(yù)測器。這就是它的全部,筆者猜想,試圖改變它的訓(xùn)練損失以增加意圖或代理,將比聽起來要困難得多。(而在筆者看來已經(jīng)相當(dāng)困難了!永遠(yuǎn)不要低估一個工作中的機(jī)器學(xué)習(xí)研究項目的慣性。)
但是,這又一次讓筆者想起了很多早期的搜索引擎。當(dāng)筆者還是個孩子的時候,為了讓更好的搜索結(jié)果出現(xiàn)的頻率更高,筆者被教導(dǎo)如何組織搜索查詢關(guān)鍵詞。要避免使用簡短的詞,將重要的關(guān)鍵詞放在前面,不要輸入完整的句子。筆者們之所以這樣處理,是因為它的收益是值得的。GPT-3 可能與之類似。
筆者現(xiàn)在期望計算將發(fā)揮更大的作用,并看到模型的發(fā)展空間
出于筆者不想在本文中談及的原因,筆者不喜歡這樣的論點,即人們對人腦進(jìn)行計算估計,采用摩爾定律曲線,推斷出這兩條曲線,然后宣布通用人工智能將在兩條曲線相交時發(fā)生。筆者認(rèn)為他們把討論過于簡單化了。
然而,不可否認(rèn)的是,在機(jī)器學(xué)習(xí)進(jìn)程中,計算扮演著重要的角色。但人工智能的能力有多少是由更好的硬件讓筆者們擴(kuò)展現(xiàn)有模型驅(qū)動的,又有多少是由新的機(jī)器學(xué)習(xí)理念驅(qū)動的呢?這是一個復(fù)雜的問題,特別是因為兩者并非獨立的。新的想法可以讓硬件得到更好的利用,而更多的硬件可以讓你嘗試更多的想法。筆者在 2015 年對這種可怕的簡化的猜測是,通用人工智能進(jìn)步的 50% 將來自計算,50% 將來自更好的算法。在 2015 年的模型之間缺失了幾樣?xùn)|西,還有一些東西將“通用”放在了通用人工智能中。筆者不相信依靠更多的計算能解決這個問題。
從那以后,有很多成功的例子都是由擴(kuò)大模型來實現(xiàn)的,筆者現(xiàn)在認(rèn)為這個平衡更像是 65% 的計算,35% 的算法。筆者懷疑許多類似人類的學(xué)習(xí)行為可能只是更大模型的突顯特性。筆者還懷疑,許多人類認(rèn)為是“智能的”、“有意的”事物,其實都不是。筆者們只是想認(rèn)為自己是聰明的、有意識的。筆者們不是,機(jī)器學(xué)習(xí)模型需要跨越的門檻也沒有筆者們想象的那么高。
如果計算發(fā)揮了更大的作用,那么時間軸就會加快。機(jī)器學(xué)習(xí)理念的瓶頸是機(jī)器學(xué)習(xí)社區(qū)的規(guī)模和發(fā)展,而更快的硬件是由全球消費者對硬件的需求推動的。后者是一股更強(qiáng)大的力量。
讓筆者們先回到 GPT-3。GPT-3 并不是你可以構(gòu)造最大的 Transformer,因此,有理由建造更大的 Transformer。如果將大型 Transformer 的性能標(biāo)度為 2 數(shù)量級(15 億個參數(shù)用于 GPT-2,1750 億個參數(shù)用于 GPT-3),那么再標(biāo)度為 2 數(shù)量級也不會太奇怪。當(dāng)然,也可能不會。(Kaplan 等人,2020 年)標(biāo)度律應(yīng)該從參數(shù) $10^{12}$ 開始相互矛盾。這與 GPT-3 相差不到 1 個數(shù)量級。不過,這并不意味著該模式將停止改進(jìn)。這只是意味著它會以不同的速度提高。筆者不認(rèn)為有什么好的理由可以證明筆者們應(yīng)該相信一個 100 倍的模型在質(zhì)量上不會有什么不同。
尤其是你轉(zhuǎn)向多模態(tài)學(xué)習(xí)(multi-modal learning)的時候,更是如此。專注于 GPT-3 的文本生成是遺漏了主要的情節(jié)線程。如果你相信 傳言,OpenAI 一直致力于將音頻和視頻數(shù)據(jù)納入他們的大型模型中。到目前為止,他們的研究產(chǎn)出與此一致。MuseNet 是一個基于大型 Transformer 的音頻生成模型。最近的 Image GPT 是針對圖像的生成模型,也是基于大型 Transformer 的。
MuseNet 問世時,是不是當(dāng)時最先進(jìn)的音頻合成技術(shù)?不是。Image GPT 是圖像生成的最新技術(shù)嗎?也不是。專門針對音頻和圖像生成的模型架構(gòu)比 MuseNet 和 Image GPT 做得更好。若專注于這一點,就忽略了 OpenAI 所要表達(dá)的觀點:一個足夠大的 Transformer 并非最先進(jìn)的,但它在這些截然不同的數(shù)據(jù)格式上做得足夠好。還有比 MuseNet 更好的模型,但它仍然足夠支持一些愚蠢但也許有用的音頻完成。
如果你已經(jīng)證明一個大型 Transformer 可以單獨處理音頻、圖像和文本,為什么不去試試同時對這三個進(jìn)行測試呢?據(jù)推測,如果所有的模態(tài)都經(jīng)過類似的神經(jīng)網(wǎng)絡(luò)架構(gòu),大概這種多模態(tài)學(xué)習(xí)將會更容易,而他們的研究表明,Transformer 的工作足以成為這種架構(gòu)。
OpenAI 可以利用他們已經(jīng)擁有的關(guān)于大型 Transformer 的任何直覺,這一點很有幫助。一旦加入其他數(shù)據(jù)流,肯定會有足夠的數(shù)據(jù)來訓(xùn)練更大的無監(jiān)督模型。當(dāng)然,你也可以只使用文本,但你也可以使用所有的網(wǎng)絡(luò)文本,所有的視頻和所有的音頻。只要你能夠擴(kuò)展到足夠大的規(guī)模,就不應(yīng)該有什么取舍。
大型 Transformer 會是筆者們將使用的最后一個模型架構(gòu)嗎?不,也許不是。它們目前的一些弱點似乎難以解決。但筆者確實看到了它們的發(fā)展空間,可以做得比目前更多。模型架構(gòu)只會越來越好,所以擴(kuò)展現(xiàn)有模型的能力一定是 10 年或 20 年后,更強(qiáng)的模型架構(gòu)的擴(kuò)展版本所能實現(xiàn)的下限?,F(xiàn)在可能發(fā)生的事情已經(jīng)很有趣了,但也略微讓人擔(dān)憂。
整體局勢
在“You and Your Research”(《你和你的研究》中,Richard Hamming 曾提出一條著名的建議:“你所在的領(lǐng)域中,重要問題是什么?為什么你不去研究它們?”當(dāng)然,通用人工智能是機(jī)器學(xué)習(xí)最重要的問題之一。
那么,對于機(jī)器學(xué)習(xí)來說,這個問題的自然版本是,“需要解決哪些問題,才能實現(xiàn)通用人工智能?”你希望這個領(lǐng)域在到達(dá)那里的路上會遇到哪些路標(biāo),這些路標(biāo)之間的路徑有多少不確定性?
筆者覺得更多的路標(biāo)開始成為焦點。如果你問 2015 年的筆者,筆者們將如何開發(fā)通用人工智能?筆者會告訴你,筆者根本就不知道怎么弄。在筆者認(rèn)為與人類智力水平有關(guān)的任何挑戰(zhàn)上,筆者不認(rèn)為筆者們?nèi)〉昧耸裁从幸饬x的進(jìn)展。但是,如果你問 2020 年的筆者,如何開發(fā)通用人工智能,盡管筆者仍然看到很大的差距,假設(shè)你很幸運(yùn),筆者對如何實現(xiàn)通用人工智能有所了解。這對筆者來說是最大的轉(zhuǎn)變。
對于大規(guī)模統(tǒng)計機(jī)器學(xué)習(xí)對人工智能的意義,人們一直存在分歧。深度學(xué)習(xí)的反對者不能否認(rèn)大型統(tǒng)計機(jī)器學(xué)習(xí)模型非常有用,但深度學(xué)習(xí)的擁護(hù)者也不能否認(rèn)它們非常昂貴。指出最先進(jìn)的模型需要多少計算量,這是一個悠久的傳統(tǒng)。來看看這張照片,在李世石在與 AlphaGo 比賽圍棋時,就在 Twitter 上流轉(zhuǎn)開來了。
像這樣的論點很好地將討論引向模型與人類相比不足之處,并且戳中筆者們現(xiàn)有的模型可能存在的根本性缺陷,但筆者覺得這些論點還是過于以人為中心了。筆者們對人類如何學(xué)習(xí)的理解還不完全,但筆者們還是接管了這個星球。同樣,筆者們不需要對“理解”或“知識”的含義達(dá)成細(xì)粒度上的一致,人工智能系統(tǒng)就能對世界產(chǎn)生深遠(yuǎn)的影響。筆者們也不必打造像人類一樣學(xué)習(xí)的人工智能系統(tǒng)。如果它們能夠完成大多數(shù)人類水平的任務(wù),那么剩下的工作就是由經(jīng)濟(jì)學(xué)來完成,不管這些系統(tǒng)是否是按照筆者們自己的形象制造的。
竭力拒絕
關(guān)于通用人工智能的爭論總是有點混亂,因為人們在重要的事情上,有著迥然不同的信念。一個有用的做法是,假設(shè)通用人工智能在短期內(nèi)是可能的,確定在那個假設(shè)的未來可能是真實的,然后評估它聽起來是否合理。
這與提出通用人工智能不可能發(fā)生的理由是截然不同的,因為有很多理由說明通用人工智能不會出現(xiàn)。但是,為什么會出現(xiàn)通用人工智能,也有大量的理由。這項練習(xí)是要把更多精力放在后者上,并且看看對所有事情都說“No”是多么的困難。這有助于你將注意力集中在真正重要的論點上。
讓筆者試試看吧。如果通用人工智能很快成為可能的話,這可能會如何發(fā)生呢?嗯,這不需要更多的新想法。它很可能是基于現(xiàn)有模型的擴(kuò)展,因為筆者認(rèn)為,該領(lǐng)域沒有太多時間進(jìn)行全面的范式轉(zhuǎn)換。而且,它還需要大量的資金,因為它需要基于規(guī)?;?,而規(guī)?;枰Y金。
也許有人開發(fā)了一個應(yīng)用或工具什么的,使用的模型是 GPT-3 的尺寸或更大的尺寸,那是一個巨大的生產(chǎn)力倍增器。想象一下,第一臺計算機(jī)、Lotus Notes 或 Microsoft Excel 是怎么接管商業(yè)世界的。記住,是工具推動了進(jìn)步!如果你的代碼速度加快 2 倍,那可能就是研究產(chǎn)出的 1.5 倍。上移或下移取決于實現(xiàn)過程中遇到瓶頸的頻率。
如果這種生產(chǎn)力的提升有足夠的價值,使經(jīng)濟(jì)效益得以實現(xiàn),而且一旦考慮推理和訓(xùn)練成本,就能賺取凈利潤,那么就有生意可做了:從字面上說,大公司為你的工具買單。向客戶付費會帶動更多的資金和投資,從而為更多的硬件買單,從而使訓(xùn)練規(guī)模更大。在云計算中,你購買多余的硬件來預(yù)測消費者需求的激增,然后出售對額外硬件的訪問權(quán)來賺錢。在這種情況下,你購買多余的硬件來預(yù)測消費者推理需求的峰值,然后將多余的算力提供給研究人員,看看他們會得出什么結(jié)果。
這種機(jī)制已經(jīng)開始發(fā)揮作用了。你可能認(rèn)得下圖所示的芯片。
上圖是第一個 TPU 的照片,正如 [Google 博客')(https://cloud.google.com/blog/products/gcp/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu) 中解釋的那樣:
盡管 Google 早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)打造特殊應(yīng)用集成電路(Application-Specific Integrated Circuit,ASIC),但在 2013 年,情況變得緊迫起來。這時筆者們才意識到,神經(jīng)網(wǎng)絡(luò)快速增長的計算需求可能需要筆者們將運(yùn)營的數(shù)據(jù)中心數(shù)量增加一倍。
Google 需要在生產(chǎn)中運(yùn)行更多的神經(jīng)網(wǎng)絡(luò)。這帶動了更多的硬件投資。幾年后,筆者們現(xiàn)在發(fā)展到了 TPU v3,有傳言稱,F(xiàn)acebook 正在招聘人員為 AR 技術(shù)定制芯片。因此,硬件需求的故事不僅僅是可信的,而且很可能是真實的。如果你可以擴(kuò)展到做一些不切實際的事情,那么就會激發(fā)研究和需求,使其變得切實可行。
在此基礎(chǔ)上,筆者們假設(shè)跨模態(tài)學(xué)習(xí)結(jié)果比預(yù)期的規(guī)模化學(xué)習(xí)更容易。與 GPT-3 相似的涌現(xiàn)性出現(xiàn)了。目標(biāo)跟蹤和 物理直覺 被證明是自然發(fā)生的現(xiàn)象,只需從圖像中學(xué)習(xí),不需要直接的環(huán)境交互或體現(xiàn)。通過更多的調(diào)整,更大的模型,甚至更多的數(shù)據(jù),你最終會得到一個豐富的圖像。文本和音頻的特征空間。從頭開始訓(xùn)練任何同喜很快就會變得不可思議。你為什么要這樣做?
在幾個領(lǐng)域中,先前的大部分工作都已經(jīng)過時了,如視覺的 SIFT 特征、機(jī)器翻譯的 分析樹,以及語音識別的 音素 解碼步驟等。深度學(xué)習(xí)已經(jīng)扼殺了這些方法。那些對這些技術(shù)一無所知的人正在研究神經(jīng)網(wǎng)絡(luò),在這三個領(lǐng)域都取得了最先進(jìn)的成果。這有點讓人感到難過,因為有些過時的想法,確實對筆者們理解語言和語音的方式進(jìn)行了很酷的分解,但事實就是如此。
隨著模型變得越來越大,并不斷顯示出改進(jìn)的性能,研究結(jié)合了一部分方法,這些方法已被證明可通過計算進(jìn)行擴(kuò)展。同樣,這種情況在深度學(xué)習(xí)中也發(fā)生過,并且仍然在發(fā)生。當(dāng)許多領(lǐng)域使用同一套技術(shù)時,你會得到更多的知識共享,這將推動更好的研究。CNN 對于考慮臨近值有很強(qiáng)的先驗性。它們最初用于圖像識別,但現(xiàn)在對基因組學(xué)(Nature Genetics,2019 年),以及音樂生成(van den Oord 等人,2016 年)都有影響。Transformer 是一種序列模型,最早用于語言建模。后來它們被用于視頻理解(Sun 等人,2019 年)。這種趨勢可能還會繼續(xù)下去。機(jī)器學(xué)習(xí)已經(jīng)達(dá)到了這樣的一個地步,將某件事物描述為“深度學(xué)習(xí)”實際上是沒喲爻的,因為多層感知已經(jīng)與足夠多的領(lǐng)域結(jié)合在一起,你無需在指定任何東西。也許過五年以后,筆者們會有一個新的流行詞取代“深度學(xué)習(xí)”。
如果這個模型擅長語言、語音和視覺數(shù)據(jù),那么,人類有哪些“傳感器”輸入是這個模型所沒有的?無非就是與物理化體現(xiàn)掛鉤的傳感器,比如味覺、觸覺等。筆者們能說智能在這些刺激上遇到了瓶頸嗎?當(dāng)然可以,但筆者卻不認(rèn)為是這樣。你可以說只需要文字就可以假裝成人類。
在上述的場景中,有很多事情要做好。多模態(tài)學(xué)習(xí)必須奏效。行為需要繼續(xù)從規(guī)模擴(kuò)展中出現(xiàn),因為研究人員的時間主要是投入到幫助你實現(xiàn)規(guī)?;南敕ㄖ?,而不是歸納先驗。硬件效率必須與時俱進(jìn),這包括清潔能源發(fā)電和修復(fù)不斷增加的硬件集群。總的來說,必須要做好的事情很多,這讓筆者覺得不太可能,但還是有值得認(rèn)真對待的可能性。
筆者在筆者的故事中看到最有可能的問題是,對于語言以外的任何東西,無監(jiān)督學(xué)習(xí)可能會更加困難。記住,在 2015 年,無監(jiān)督學(xué)習(xí)為筆者們提供了用于語言的詞向量,而對于圖像卻沒有取得什么好的成績。一個合理的假設(shè)是,語言的組合特性使得它非常適合于無監(jiān)督學(xué)習(xí),而這在其他輸入模式中是不適用的。如果這是真的,筆者可能因為過分關(guān)注成功而高估了研究。
正式由于這些原因,筆者只是將筆者的估計調(diào)整了幾年。筆者并不認(rèn)為 GPT-3 本身就是一個從根本上調(diào)整筆者所認(rèn)為是可能的。筆者認(rèn)為遷移學(xué)習(xí)比預(yù)期的要難也是一個障礙。但在網(wǎng)上,筆者看到的大多數(shù)理由都是加速筆者的估計,而不是放慢它們。
以上是有關(guān)通用人工智能什么時候?qū)崿F(xiàn)的相關(guān)內(nèi)容,希望對伙伴們有所幫助,想要了解更多資訊,請繼續(xù)關(guān)注可圈可點網(wǎng)站。