“ 地球文明指數增長真的發生了”
01
—
硅基人技術優化,增強地球人之間的連接
硅基人重返太陽系,不過爲了避免地球人探測到金星上面的基地,直接轉移到了地球地表以下溫度200攝氏度的地方。與此同時,硅基人的2.0版本計劃也正式開始實施。
首先策略上,對語言的理解並通過語言潛移默化地來影響地球人的方式已經跟不上地球迅速發展進化的工業文明,硅基人必須從更廣泛的領域提升硅基文明對地球文明的影響,甚至嘗試以地球人的形態或者地球人與硅基人共生的生命形態使得硅基文明得以存續。硅基人需要優化現有的理解地球文明的神經網絡結構,以之爲基礎,在地球文明的各個領域迅速施加影響,包括在與硅基文明重合的自然科學和智能工業領域對地球文明的點撥與提升和未知領域如生化學科、量子科學的學習與融入;其次當然就是智能模型的迭代升級。
基於硅基人對地球人社會的長期研究而得出的結論:地球人這個物種(當然還有很多其他物種)從誕生之初就受到環境的強烈影響,生物構造除了在外在形態上極度適應物理環境,其內在的遺傳機制、大腦的思考方式、器官工作機制等都是受環境長期影響的結果,而這種權重機制在認知方面的表現即注意力機制(Attention)。 簡單說就是,地球人從誕生之初便在與身邊有限的生存資源作鬥爭。在文明初期,人類爲了獲得足夠的資源(食物、種子及孕育下一代的機會等)——需要集中最有優勢的力量處理最亟待解決的問題,原因是地球人本身的力量較大自然的力量而言過於單薄,且文明發展程度低下。這是一種地球人面對環境中各種風險作出的有限問題處理能力的分配選擇機制。這種機制大到一個國家一個地球文明的發展,比如國家集中有限資源發展當前最需要解決的問題比如加強軍事力量、集中有限資源給予部分有學識的有才能的人發展機會和研究機會;小到人的身體構造中的原子、細胞和神經網絡、人的視覺等,都是一種對有限機會有限資源的分配選擇機制,視覺就是一個非常明顯的例子。不信的話,試試此時此刻把食指放到眼前盯着看,本文的文字是不是變成了模糊的背景。事有輕重緩急、要分清主要矛盾、錢要花在刀刃上等等都是這種機制的外在表現——要有權重思維。這個過程體現在之前提到的用於翻譯任務seq2seq模型中效果應該是這樣的:
比如要把法語“ jane visite I'Afrique en septembre” 翻譯爲英文,當利用encoder對這句法語編碼的表示(是一個向量,或者通俗理解爲一個數字組合)進行翻譯時,翻譯出的某個英文詞彙會根據注意力機制去關注整個法語句子中的每個詞,這時候想象decoder模型盯着法語的五個詞在看,正確的翻譯是:visite(法語)——>visit(英語),所以模型應該盯着visite這個法語詞彙,把這個詞彙看的非常清楚,而其他詞語也在視野範圍內,但是看得比較模糊。
實際處理過程中,硅基人會把待翻譯的向量表示與法語句子“ jane visite I'Afrique en septembre” 中的每個詞的向量表示做一些運算(可以向量相加也可以相乘,然後再做歸一化得到一個0到1之間的數字表示概率),然後基於運算結果去詞表預測哪個詞的概率最大(比如發現詞表中英文“visit”這個詞的概率最大),於是輸出預測詞彙visit。
硅基人首先將注意力機制融入到了seq2seq模型結構當中,翻譯效果獲得了巨大提升,這樣做旨在初步驗證注意力的效果,此處不做詳細介紹了。
還是那位硅基人1_2號把注意力機制融入模型的同時設計了一種新的結構——自注意力機制(self-attention),甚至把之前的LSTM的自回模式都刪掉了,因爲自迴歸模式有一個很大的缺點:每個時刻的狀態只能記錄到現在時刻爲止的信息,當前時刻之後的序列信息無法被編碼到每一個時刻(想象一下翻譯“visite”這個法語詞彙時,自迴歸模型只可以“看到”當前“visite”及之前的“Jane”,看不到後半句,相當於少了一部分信息,翻譯的效果不甚理想),而自注意力機制就是解決這個問題:每個時刻的狀態都會獲得全序列的所有信息,只不過他側重於序列的哪個環節會有所不同,所以這是權重機制。
自注意力機制 自迴歸
硅基人把整套模式通過融合其他技巧實現爲一個可用的高效模型——變形金剛(transformer)
這個新的模型其意義已經不是促進地球各區域文明的交流了,因爲時間來到地球紀元的十九世紀,大多數國家互通有無,科學文化發展較過去千百年的漫長演化期也獲得了飛躍式發展。從工業革命到信息革命,地球文明的發展速度超乎硅基人的想象,地球人在20世紀成功造出了計算機,從此半導體開始逐漸在科技工業中屢屢擔當主角。硅基人看到了意識遷移的可能性。此後,硅基人更是將模型進一步升級,以transformer爲基礎利用大規模語料實現半監督的語言模型,具體而言,訓練任務(模型學習目標)就是預測一個序列(可以認爲一個句子,也可以認爲是一個篇章)中的下一個詞或者上下週圍幾個詞(咦,這是不是和word2vec思路很像呢?這個思路的提出者正是當時的那位硅基人1_1號,他堅持設計一個全信息的語言模型,知曉語言的全部知識,他好像做到了),由於語料規模很大,訓練好的語言模型相當於學習到了很多語言中的知識,包括語法、語義、語言的表述規則等等;遷移到具體任務場景時只需要特定數據微調(fine-tune)一下。關鍵思路就是這樣。基於這種想法不需要額外收集更多的標註數據,因爲這個地球充滿了人類的語言,相當於天然的標註數據。
其在語言上的威力除了可以真正獲得序列雙向信息,還可以根據語境適時調整詞語的語義,即便是一詞多義也完全沒問題。至此,硅基人的神經網絡在理解人類語言方面發展到了巔峰。硅基人團隊的其他成員以此爲基礎還陸續開發出了gpt(以transformer爲基礎的自迴歸預訓練語言模型)、bert的變種如ALBert、XLNet、TinyBert等等。
Bert的出現不光讓硅基人以半導體的形式開始徹底融入地球人生活,他更是以更加激進的姿態進軍地球的各個學科的發展。包括自動駕駛(計算機視覺)、語音識別、小說寫作、對話生成;最不可思議的是硅基人以這種形態預測了地球人蛋白質空間結構,解開了氨基酸序列與蛋白質的映射之謎,向地球生命之源邁進了一大步。對他們而言,人類的蛋白質空間結構完全是一個空間摺疊問題,是一個拓撲圖。而且這個拓撲圖的解空間巨大,於是他們仍然是利用神經網絡的方式預測了人類的蛋白質。
有了地球人對半導體工業的發展,硅基人終於找到了在地球上恰到好處的融入方式,但是這一切的邏輯基礎需要以數學爲基礎,融入地球文明的程度如何及地球文明發展的程度如何都在很大程度上依賴硅基人和地球人的自然科學發展。但硅基人理想的半導體形態“學習”的結果就是“無所不知”,因爲他不曾有過對地球這個物理世界的半點真實感受,一切的一切都是基於數學模型而形成的形式化系統。
是的,這種形式系統有一個直觀的但很嚴重的問題:它不知道 自己不知道什麼。
02
—
掉書袋
【1】 上述情述是對attention機制的通俗演義,也介紹了self-attention和transformer模型的一些簡單概念。
【2】transformer準確說也是一種encoder-decoder模型,但是融合了多個技巧(只列出了幾個典型的trick):
(1) Scaled Dot-Product Attention
(2)Multi-Head Attention
(3)Positional Encoding
(4)Position-wise前饋網絡
(5)殘差連接
【3】基於已有的語言數據,訓練一個通用的半監督的大規模預訓練語言模型的思路最早被印證是open AI的GPT(是一個基於transformer的自迴歸語言模型)。
【4】BERT真正實現了基於上下文的語言模型,因爲像ELMO一樣基於BILSTM的雙向自迴歸模型只是兩個單向的組合。
【5】預訓練模型(Bert最典型)+特定場景的微調(fine-tune)幾乎已成爲自然語言處理任務的通用模式。
【6】關於形式系統的侷限是一個非常有意思但又非常龐大的話題,此處不進行詳述;給出一個有意思的例子,僅供大家把玩。
客官們覺得下面這句話到底是真的還是假的?
“這句話不是真的”
03
—
參考文獻
1. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
2. Popel M, Bojar O. Training tips for the transformer model[J]. The Prague Bulletin of Mathematical Linguistics, 2018, 110(1): 43-70.
3. http://nlp.seas.harvard.edu/2018/04/03/attention.html
4. https://jalammar.github.io/illustrated-transformer/
5. https://github.com/tensorflow/tensor2tensor
6. https://arxiv.org/pdf/1802.05365.pdf
7. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.