第302章 自然語言處理

企劃書很厚,兩三百頁,內容寫得很詳細。

肖遠在翻看的時候,並沒有去逐字逐句的讀,實際上也沒有那個必要,他只需要通過企劃書,把握其中的脈絡和關鍵,對唐新宇和顧狼的想法有所瞭解就行了,好在企劃書雖然厚,但是條理很清楚,所以肖遠讀起來也不費事。

在肖遠把企劃書讀到一半的時候,楊靜宸在外邊喊他吃飯,於是他暫停了閱讀,起身出門吃飯去了。

吃過飯後,他跟隨老媽去了書房,想要問她一些事情。

“怎麼,還要媽幫你做什麼?”書房裡,楊靜宸問道,很顯然,她以爲肖遠還要說開源社區的事情。

“不是,我想問問,您對中文自然語言處理知道多少,實驗室有沒有誰在研究這個?”肖遠問道。

“爲什麼想起問這個了?”楊靜宸問道。

“玄涅公司準備做一個全文搜索引擎,目的是想讓用戶通過在搜索框輸入日常用的語言,搜索引擎應該能夠自動對他們的語言進行分析理解,然後從網絡上海量的網頁中搜索到他們想要的信息,這裡面需要用到自然語言處理。”肖遠說道。

“全文搜索引擎?”楊靜宸眼前一亮,由衷道,“這個想法好啊,如果能做成,比玄涅現在主要經營的玄涅防火牆,更有前景,更容易做成大產業。”

“是的,我們也是看到了這一點兒,但是這其中有一些既需要理論支持,又需要大量基礎工作的東西,自然語言處理也在其中,而且很重要,您不是人工智能專家嗎,所以我纔想到問問您。”肖遠說道。

“自然語言處理嚴格來說,應該是一個以人工智能爲核心的跨學科研究方向,它牽涉到的,不僅僅是計算機和人工智能,還牽涉到語言學,心理學等其他社會學分科,雖然這個學科在西方起源挺早,四十年代就有了,但是自然語言系統太過複雜,所以,直到現在,全世界範圍內,也沒有什麼突破性進展。”

楊靜宸顯然對這個領域很熟悉,給肖遠介紹了一下當前國際上關於這方面的研究情況,然後又說了國內的研究情況:“咱們國內對這方面的研究,相比國外,還處於一個水平更低的基礎信息積累階段,一方面是因爲國內的起步比西方晚,二來,是因爲,中文和西方拉丁語系的那些語言有很大不同,拉丁語系是拼音語系,而且句式本身就是結構化的,所以計算機處理起來也相對容易,但是中文卻是一種古老的象形文字,句式靈活隨意,充滿了各種虛詞助詞,想將這樣的語言轉化成計算機可以分析處理的形式,本身就是一個很大的難題。”

“嗯,這倒是事實,那麼咱們國家現在的研究狀況究竟是什麼樣子的?”聽了老媽的話,肖遠稍稍有些失望,前世他也只是稍稍關注過這方面的理論,具體的細節瞭解也不是太多,於是就想更深入的瞭解一些。

“現在國內進行這方面研究的,主要是幾個大學,其中京華大學的研究比較前沿,國內其他大學在這方面的研究,也大都在配合京華大學的研究,做一些基礎詞庫整理工作,媽的實驗室也有人在做這方面的研究,主要承擔的是H到P的詞彙整理建庫工作,目前完成度已經到百分之八十了。”楊靜宸說道。

聽了楊靜宸的介紹,肖遠說道:“基礎詞庫大概什麼時候能夠建好?”

“這個很難估計。”楊靜宸說道,說完看到肖遠眉頭皺了起來,又說道,“你要真的想在搜索引擎中使用自然語言處理算法,媽倒是能給你一些建議。”

肖遠用詢問的目光看着老媽,等着她繼續。

“人們要利用你說的搜索引擎在網上檢索信息的話,我想他們用的最多的,肯定不會是完整的句子,而是一些關鍵詞,或者一些短句,僅僅分析關鍵詞和短句的話,難度就沒有那麼大了,而且你也沒必要一下子就把產品做的那麼完美,人們以前從來沒有接觸過這樣的產品,所以,只需要一些簡單的智能性,就足以對用戶產生足夠的吸引力了。”楊靜宸說道。

肖遠點了點頭,說道:“這個我自然是知道的,不過咱們國內的研究狀況讓我有些失望罷了,第一版肯定不能一下子往裡面放太多的東西,只需要做出一個基本的東西,然後根據用戶的反饋和新技術的成熟,再擴充,讓它越來越完善,這好像是軟件工程上有名的XP編程。”

“你知道XP編程?”

楊靜宸卻是因爲肖遠提到XP編程(此處的XP指的是eXtremeProgramming的簡寫,極限編程的意思,而WindowsXP中的XP指的是experience的簡寫,意思是體驗,而且99年還沒有WindowsXP之說。)感到很驚訝,大概是想不到肖遠還會去看軟件工程方面的書吧,更何況XP開發方法還是近幾年纔有人提出來的一種很新的方法。

“瞭解一些。”肖遠卻是沒有想到自己隨口的一句話,都能讓老媽感到驚訝,於是就把話題又拉回了正題,說道,“媽,我倒有個想法。”

“什麼想法?”楊靜宸問道。

“我想讓玄涅搜索和你的人工智能實驗室進行深度合作,一方面,你們能夠從玄涅得到一定的資金支持,而且你們還可以利用玄涅搜索所採集的海量網絡信息資源,另一方面,玄涅也能夠第一時間將你們的研究成果應用到自己的產品中,提升公司的技術含量,我認爲這是一件雙贏的事情。”肖遠說道。

“學校科研和企業合作,儘快轉化成生產力,是咱們國家一直提倡的,人工智能實驗室這些年,也一直在尋求與企業合作,聯合研發,所以,如果玄涅想要合作的話,實驗室當然歡迎了。”楊靜宸說道。

“那好,等時機成熟後,我讓唐新宇和你們談,具體過程我就不參與了。”肖遠說道。

…………

和老媽又聊了一會兒,肖遠再次回到了自己的房裡,把企劃書看完,思索片刻,他拿出紙筆,開始構思玄涅搜索引擎的技術架構了。

PS:這幾章需要講一些技術方面的知識,爲了保證不出現什麼紕漏,綠茶需要思考很多東西,查很多資料,寫的很慢,很費腦。

今天仍然三更,第二更送到。

第325章 飛蛾對光明的嚮往第457章 小道消息第892章 我回來了第513章 終於抓到了第379章 變態實驗室第268章 祭拜第322章 肖遠的建議第846章 一個消息和一段離奇經歷第131章 結果第760章 腦波輸入訓練第784章 再見寧蘭第588章 入洪門第184章 救急第855章 兩個目標第454章 傑西卡的邀請第855章 兩個目標第53章 害人終害己第627章 到我電腦裡來第322章 肖遠的建議第727章 三個消息第552章 意外的挑釁第813章 孩子,我等你很久了第373章 挑釁第282章 開源社區第497章 一封信第874章 不同的事實第228章 唐颯的求助第669章 驚變第463章 點穴第357章 要成事,須心懷敬畏第416章 林平不見了第879章 把我送給你了第782章 緣由第491章 殘酷的考驗第169章 唐颯來訪第1章 機房栽贓事件第507章 傑西卡的警告第557章 快跑第817章 清除系統主意識ǚ∥第621章 態度轉變第177章 託,都是託第263章 病毒變異第156章 前夕第315章 晨練第785章 人腦計算模型第730章 基地第645章 華夏黑客聯盟第25章 雙重誤會第72章 虛驚一場第409章 拍照第625章 系統開發第634章 新的想法第25章 雙重誤會第812章 責任第352章 與老媽的合作第881章 大神來了第129章 劉冬的興趣第774章 修復通訊系統第383章 看不到硝煙的戰爭(二)第615章 吃紅果的嚴重後果第350章 聯合第666章 與路萱草的交鋒第621章 態度轉變第322章 肖遠的建議第10章 交易第506章 心軟了第103章 代碼規範第317章 教官姜華第876章 藥物第63章 風暴前夕第50章 警方的求助第89章 哪個纔是真正的你第694章 寧蘭安家第641章 給你找個小夥伴第529章 接機第558章 驚魂第298章 這不合理第660章 被藐視了第410章 陰謀第772章 意外的消息第837章 你們沒戲第816章 因果律第554章 刀片集 羣第688章 叛徒第608章 吃果子第569章 是男人,必背書第773章 惡有惡報第789章 壞寧蘭出現第321章 營救任務第518章 壞蛋,問你個問題第495章 混沌雛形第60章 千鈞一髮第703章 快救命啊第357章 要成事,須心懷敬畏第652章 全城電話第434章 十成把握第734章 抗爭導致的異常第343章 檢查電力調度系統第284章 高考第831章 無心插柳