第60章 給詞語一個向量

(一個通知,應大家要求小說的時間軸更改爲2017年11月開始,現在劇情時間是2018年3月。當初設定在2009年11月底開始並不是爲了文抄公抄襲現在已經有的技術,而是希望把時間軸拉長一點,現在讀者反映放在八年前代入感弱一些,有些讀者塞班手機都沒有用過,因此進行修改。修改後的前文主角家庭收入、房價、使用的手機電腦等的符合當前時代,別的沒有什麼變化,不影響後文。大家如果發現我前文還有哪裡沒有修改的,請告知,說明不佔字數。以上。)

蕭銘詳細閱讀着盤古語言的優點,最大的有點就是集成了人類漢語的所有邏輯和規則,能夠將人類語言表達意思直接告訴機器。

盤古語言如果使用在潘沙星的生物思維計算機上更能夠發揮作用,現在使用在二進制計算機上,只能說將功能發揮的勉勉強強。

接下來,蕭銘將自己購買的應用套餐兌換爲翻譯軟件。

電腦上出現了翻譯軟件的詳細編程步驟。

兌換的應用套餐不會直接將應用送給你,而是讓蕭銘實際操作,自己搗鼓一個程序出來。

授人予漁不是授人予魚就是這個道理。

蕭銘想着,其實自己的英語已經進步很大的了,語法的問題已經不大,最大的缺點是詞彙量少,聽說能力差,看得懂聽不懂說不會。

這也是大部分夏國學生學習英語的困境。

英語重要嗎?就現階段來說,肯定重要。人類目前大量的技術科學都是來自於西方,英語不好連SCI的論文都看不懂更別說做學術了。

蕭銘這半年來最大的變化就是會自我反省,英語不好也要反省。

他可以抽寶箱,可以兌換科技,但是這些科技產品也是建立在基礎科技知識之上。

要是蕭銘不懂基礎的生物知識,他就不會培養吞噬1菌類,同樣,要是他不懂邏輯知識也絕對不會編程。不懂英語看不懂國外的學術也不會在科技上進步。

天下沒有免費的午餐,人生再有外掛也得努力。

回到計算機屏幕上,蕭銘有了一個大膽的想法,他需要的不僅是一個翻譯軟件,而是需要的一個能夠較爲智能和自己進行英語對話,儘快提高自己英語聽說水平的軟件。

按照盤古語言的編程說明,蕭銘開始動手。

首先,在編程的頁面上,蕭銘書寫着應用軟件的總說明——能夠智慧準確的相互翻譯英語和漢語,並且能和用戶對話。

接下里就是程序的具體書寫。

蕭銘英語詞彙量不足,但是語法沒有問題。

蕭銘歸納,現今市面上的翻譯軟件和翻譯機最大的缺陷有兩個。

一個是詞不達意。無論是英語還是漢語,通常會有多種意思,在不同的語境中有不同的解釋,但是機器翻譯並不能完全瞭解人類表達的意思。很多時候單詞的詞語意思準確,但是放在句子中笑話百出。

還一個是無法識別人類的語音。這主要出現在翻譯機上,每個人有很多種口音,生活中的對話有很多的俚語,人和人之間對話時絕對不可能像央視主播那樣每句話都是語言要素齊全,語音標準。

機器翻譯在很多時候都會撿着聽得懂的翻譯,聽不懂的亂翻譯。這也是很多品牌的翻譯機拿到國外去應用的時候讓顧客感到並不順心,翻譯機更不能作爲會議同聲翻譯的原因。

爲了處理上面兩個主要問題,蕭銘按照說明書的建議項,編輯着。

蕭銘採用數學的思維,將每個詞語設定爲向量,並且分類爲名詞、動詞等等。

將詞語設定爲向量的好處就是講長難句進行肢解,翻譯軟件處理時會將每個詞語準確的翻譯。

接下來就是按照語言的語境篩選組合,將不同的詞語按照翻譯對象需要的語法和含義進行組合,並對缺少的語法要素進行補足。

在盤古編程語言的提示下,蕭銘知道自己編程的邏輯是正確的。

但是邏輯正確只是第一步,怎麼讓擁有向量的詞語按照語法組合爲新的語句,這個很難,這也是現代翻譯軟件和機器最大的難點。

沒有關係,這是盤古最擅長的。

盤古給了蕭銘幾個接入入了口。

蕭銘將導入大量的中英文資料,資料不僅有名著更有口水話表達的網路小說、貼吧問答、微博、推特文章等等。

未來這些資料會可以由用戶們自己上傳,優化程序的準確性。

盤古的數據庫能將整合這些資料,熟悉每一個句子的語境,然後整理出數據模型(模擬出漢語和英語等人類思維表達方式的模型)。

這些數據會幫助“詞向量”在不同的語境和語法中出現在合適的位置,如此翻譯會更加準確。

這項工作最大的難點就是編譯量非常大!

所以現今市面上現存的翻譯軟件都是採用語言學家總結的語法庫,即便有少部分軟件有自我學習功能,也不能做到了解和統計當今所有的語言習慣並對其作出分析。這也是現有翻譯軟件機械不智能錯誤百出的原因。

剩下的一些接口,蕭銘將其接入全國各地的免費直播間,直播間主播有用普通話有用地方語言,也屬於口語的表達,最具有代表性。

盤古語言將蒐集各地的語音和語氣將其歸類編譯,最後形成語音數據庫和文字庫相對應。

盤古編程使用方式很簡單,不需要輸入代碼,只需要告訴邏輯意圖,當蕭銘告訴邏輯和方式之後,編程語言就可以明確運行。

然後……

然後計算機卡死了,卡得發燙!

蕭銘廢了半天功夫心血化爲烏有。

勞資……

蕭銘購買的筆記本是華碩的普通筆記本,用的是i7 8550u處理器。

筆記本的處理器處理如此大量的數據,不卡死纔怪!

蕭銘看了下時間,已經凌晨三點。

“我需要一組服務器。”蕭銘說道,隨後他躺在牀上繼續思考着語言翻譯和英語學習助手軟件的邏輯性問題。

接下來的幾天,蕭銘在學校很沉默。

除了做必要的數學和理綜練習題以外,大部分時間都在做英語閱讀和語文閱讀。

學校小組的成員都知道蕭銘在水木大學老師離開之後心情不怎麼好,都沒有去打擾他。

幾天之後,蕭銘問老爹要了十萬塊的經費,直接網購了四組英特爾Xeon E5-2603v4芯片組建的服務器主機,並且聯繫人上門安裝。又花錢開通了企業光纖專線。

蕭銘看着白花花的銀子今天時間就花沒了,也是肉痛。

兩個行業絕對是暴利!

一個是英特爾的芯片行業,一個是電信的通訊行業!

安裝服務器的年輕師傅看着幾天沒睡好覺有些滄桑猥瑣的蕭銘,偷偷說道:“建直播網站?小兄弟,現在風聲緊,服務器好還是租用海外的好點,自己建設風險大!”

蕭銘無語,“那你要不要先充個會員?可以一對一。”

師傅嘿嘿笑了兩聲說道:“不了不了。”

第301章 後手機時代設想第706章 完美虛擬世界第35章 記者來訪(求收藏)第803章 我的面子不是那麼好給第472章 終於搶到了第123章 重磅發佈(一更)第512章 一年一度曬獎金第389章 危險,盤古科技系第196章 醫者仁心第31章 盤古編程語言第636章 意外的驚喜(求訂閱!)第577章 沒有硝煙的戰爭(三更)第704章 血腥清洗第525章 小初的驚人請求第620章 盤古科技最機密的實驗室第100章 傲慢與偏見(加更)第16章 實驗成功(上)第345章 頭版頭條第379章 不用懷疑,能治!第739章 生命邀請函(一)第519章 別等了,自己做第645章 火到海外第443章 錯誤的判斷第384章 燕京大學的請求第129章 超乎預料(求訂)第897章?切斷供應鏈第335章 聽說你很值錢第543章 患者們的選擇第64章 引發關注第239章 我要報名!第122章 元宵見第261章 躁動和不安(二合一)第668章 大規模測試第175章 T積電的爛攤子第739章 生命邀請函(一)第623章 信息化戰爭第156章 完美的論文第172章 碳化硅光刻機第721章 做好準備了嗎?第843章?你肩負着重大使命第69章 企鵝集團的offer第667章 思維控制第332章 重聚小鎮第152章 吞噬II菌落第658章 率先應用第440章 城市道路實驗第695章 錯誤判斷第133章 掘第一桶金(三更求訂)第252章 你被解僱了第232章 一廂情願第667章 思維控制第280章 開啓暴力測試第366章 傳統行業也有春天第437章 試車第205章 都在搶第319章 一鍋端(二)第397章 未來的格局第234章 松下的啓事第75章 出成績了第162章 鉅額投資第89章 孤注一擲第510章 悄無聲息的戰爭第550章 員工們的福利第815章?你們居然沒有簽訂協議第18章 成績的真實性第814章?航天城竣工第231章 憶長安第486章 沉迷遊戲不可自拔(二)第278章 近光速的電子第184章 醫療爆點(二)第510章 悄無聲息的戰爭第740章 生命邀請函(二)第526章 創造身體?第369章 改變市場第214章 你激動什麼?第82章 未來語音助手第106章 系統之殤第349章 毫無優勢第459章 火爆的銷量第45章 吞噬1菌落,衰亡!第324章 科技很美好(二)第779章 《時代》專訪第730章 拿歐洲做實驗第798章?爭搶投資第261章 躁動和不安(二合一)第401章 盤古科技的雄心第59章 受刺激了(求一切!)第36章 卸磨殺驢第31章 盤古編程語言第74章 神助攻第250章 這裡不講價第643章 火到爆的門店(三)第272章 歐洲的專家小組第636章 意外的驚喜(求訂閱!)第167章 極度關注(二)第416章 貧窮國家的希望第415章 糧食換資源第877章?空中交通規劃第292章 小東西也能爆賣第563章 BBA,危機!