此時文琦要是能夠打開“蜜蜂輸入法熱q江湖專用版詞庫。myword”,看到裡面的詞組內容的話,他就會明白爲什麼這款蜜蜂輸入****是那麼地“懂他”——在這份詞庫文件裡面,有大量他自己在《熱q江湖》論壇經常使用的句子和詞語!
不過可惜,不像是zip文件簡單改名的skin皮膚文件,馬競對myword詞庫文件進行了嚴格地壓縮加密。這麼做原本是爲了壓縮文本文件大小,方便作爲附件上傳到論壇,不過卻也歪打正着地保護了蜜蜂輸入法的秘密。
隨後文琦就在這個帖子後面的跟帖裡面發現了好多熟悉的id,一個個論壇水王紛紛表示這款蜜蜂輸入法論壇專版實在是太神奇了,非常地“懂他”,按一兩個字母就能把自己想說的話都打出來,實在是太棒了!
“爲什麼你們那些水王都覺得這款蜜蜂輸入法非常好用?秘密全在那個論壇專用版詞庫上面,它裡面應該是把你們經常在論壇上使用的句子都收納進去了,所以纔會按幾個字母就會出你的常用句子。”——曉曉小生
很快就有知識帝出來進行科普了,文琦看到這裡也是輕輕點頭,覺得這位論壇百曉生果然沒有說錯。
再給這篇帖子加精華以後,文琦關閉了《熱q江湖》論壇頁面,登錄了學校的校園bbs,然後第一眼就看見了被頂到置頂帖之下第一位的那個帖子。
標題:《江大學子必備,蜜蜂輸入法江大專版》,點擊數157,回覆102,發帖時間2006-03-18-13:07:56。
“居然發到這兒來了?”帶着疑惑文琦點擊進入這個帖子,發現內容和他之前在《熱q江湖》論壇看到的內容基本上一致,差不多隻是把“熱q江湖”四個字提換成“江x大學”,然後皮膚預覽圖換成帶有校徽、院徽圖案的“江大專用皮膚”,相應的輸入效果圖也換成在校園bbs、校圖書館兩個網頁上面的輸入效果圖片了。
文琦點擊下載了,“蜜蜂輸入法江大專用版。zip”,把裡面的詞庫和皮膚文件解壓出來安裝上。然後在輸入框裡面打字,他發現果然多了不少江大的專用詞彙:校名院名系名班名、課程名、教科書名,都是不用打完完整拼音就出現在了候選詞裡面。
文琦試着打班級輔導員的名字簡稱gxy,也立即看到“顧學玉”三個字出現在候選詞裡面。
想到曉曉小生的分析,文琦試着輸入wq,果然看到“文琦”出現在候選詞列表裡面,再試班上同學的名字,也都能找到。
文琦毫不懷疑,這份“蜜蜂輸入法江大專用版詞庫”裡面一定喪心病狂地把全校師生上萬名字放了進去。
其實他想的簡單了,江大專用詞庫裡面包含的人名超過十萬!不僅包括現在在校的全體師生,而且很多過往任教的老師、歷屆畢業校友的名字也都在裡面,不過他們的詞頻很低,打簡拼時候選詞太多一般要翻頁好多次才能看到。輸入他們姓名的全拼,纔可以更快地看到他們的名字。
這些名字都是從江大校園網內各級服務器上面蒐集來的,因爲江大校園bbs的域名是掛靠在江大的jtu。edu。cn域名下的二級域名,導致蜜蜂發佈器順帶着把整個jtu。edu。cn網站進行了全站下載。
得益於江大力行無紙化辦公,校內各種檔案都有電子版,讓馬競的“蜜蜂發佈器”很輕鬆地就蒐集了大量文本文件,然後提取出了人名和高頻詞、高頻字,然後打包成江大專用詞庫。
而且當這些人名出現在候選詞列表裡面時,它們的顏色還與別人大不一樣的,男生名字的姓都是藍色,女生的姓都是紅色,有男有女的名字則全是綠色。同時本校人的名字下面還會有淺淺一道背景色,顏色與其所在院徽或者校徽的顏色一致。像是文琦就發現自己班所有人名字下面都有淺藍的底色,而一起上高數課認識的理學院同學的名字下面就是淺紫色的,他女友的名字下面有淺紅色背景,那是外語學院的院徽顏色。
這些特殊的標記,都是源自江大詞庫,馬競版的詞庫不只是單純的根據詞頻排序的文本文件,其中還有簡單的關係數據庫的內容。像是“文琦”這個名字,就會和“男”、“能源與動力工程學院”、“核工41班”等詞語發生關聯,而“能源與動力工程學院”又會與“能動學院”、“能動學院院徽”、趙祺(能動學院院長)等詞語發生關聯。
傳統的詞頻排序算法,只能根據詞語累計輸入次數與詞語最近輸入時間這兩個數據調整候選詞排序,而蜜蜂輸入法引入的這些關聯數據可以大大補充單純詞頻排序算法的不足,使得蜜蜂輸入法的輸入效果更加智能更加方便。
在0。9公測版的蜜蜂輸入法裡面,關係排序算法就被應用到人名候選詞的排序裡面。
文琦試着打班上同學名字時,發現幾個姓李姓劉的同學,名字也不需要翻頁,在一大堆劉xx、李xx的候選詞裡面排名非常靠前。其原理就是蜜蜂輸入法的關係排序算法,這些同學和他一個班,都和“能源與動力工程學院”、“核工41班”兩個詞發生關聯,所以詞序被大大提高,也擁有同樣的背景色。
其實學生名字的背景色是經過特殊算法嚴重變形的院徽圖片,完全看不出校徽的形狀,只剩下平均色。只有安裝了“蜜蜂輸入法江大專用版皮膚套裝。skin”文件,取得裡面的校徽圖標素材,輸入法纔會在學生和老師名字下面放置校徽色標記。當然,沒有安裝江大專用詞庫的話,輸入法雖然會根據自動生成的關係數據庫放置校徽色標記以及其他標記,但是出錯率就要高很多了。
因爲是全自動收集整理生成,並且使用了一些暴力破解密碼的手段,這個詞庫裡面其實是包含了一些江大的秘密信息的,比如校長會議的會議記錄以及一些還未公佈的文件的部分內容等。但是因爲詞庫經過詞頻排序,那些秘密信息通常都很少在文件上出現,詞頻很低,並不容易被人發現,因此也沒引起他人注意,馬競自己也並不知道還有這樣的問題。
還要到今年暑期招生的時候,有人發現個別新生的名字可以輕鬆打出,並且顯示樣式也是本校人,不過那人並沒有深究,只是將這件事作爲趣事放到校園bbs上面。
這幾張截圖後來被有心人看到,分析認爲那些被三月份過期江大詞庫標記爲本校人的新生,應該是學校內部招生的結果,由此還引發了一次被稱爲“江大內部招生門”的醜聞事件。
當然,在江大校方看來,則是泄密事件,甚至一度發文禁用蜜蜂輸入法,江大計算機管理中心一度還封堵了蜜蜂輸入法的升級端口。
不過那時候馬競已經升級了蜜蜂輸入法,對用戶詞庫進行了整理,一些詞頻極低的非用戶自創詞被自動清理掉了。同時源自保密文件的一些內容也被刪除了,封殺事件最後也就不了了之了,反倒是因爲封殺事件使得蜜蜂輸入法在江大校園裡面知名度大增,更加流行了。