第53章 大功告成

不過,在跑代碼之前,還要對數據進行預處理。

江寒先從報名信息表中,將性別信息仍然“健在”的行挑出來,只保留序號、姓名和性別,另存爲label.xls。

這些記錄一共9527條,大約佔三萬多條數據總數的30%。

它們對應着9527張真彩色照片。

24位真彩色的圖片,每個像素點在內存裡,要佔用3個字節的存儲單元。

每張照片有210×120個像素,這樣讀入一張照片,需要的內存空間就是210×120×3=75600個Byte。

9527條數據,共需要9527×75600=720241200B≈686.88M≈0.7G!

這個內存開銷,還是比較容易接受的。

但是,“感知機”的算法,需要進行大量浮點乘法運算。

對每個像素的每個RGB分量都算一遍?

沒那個必要,也太浪費時間。

所以,聰明的做法,是先把照片數據“壓縮”一下。

江寒給“感知機”的代碼,添加了一個LoadData函數,用來讀取和處理照片數據。

在這個函數裡,先定義一個二維的整形數組Feature。

然後從label.xls中讀出序號、姓名信息,按照剛纔建立的索引表,找到對應的照片文件。

下一步,將照片讀取到內存中,讀取的同時,將每個像素二值化。

具體做法是:色彩濃度在閾值以上的像素,取值爲1,低於閾值就讓它爲0。

這樣一來,原本的真彩色照片,就被轉換成了黑白輪廓圖。

然後,再將輪廓圖中的0或者1的取值,按照從左到右、從上到下的順序,重新編排成一行數據,存放到數組Feature中。

Feature中的每一行,都存儲了一張照片的二值化信息。

一共9527張照片,就需要9527行。

全部照片處理完畢後,就得到了一個巨大的二維數組Feature。

它有25200列、9527行。

接下來,定義一個擁有9527個整形元素的一維數組Label。

從label.xls中讀入性別信息,男生設爲1,女生設爲0,存放在數組Label中。

Feature加上對應的Label,就構成了訓練數據集。

訓練“感知機”時,將一行行Feature代入公式中,進行加權和運算,其結果再通過sign函數,轉換爲0或1,然後和對應的Label值對照。

如果不相符,就調整權重和偏置,然後重新計算。

當每一個Feature代入公式後,都能計算出正確的Label時,就得到了一組權重和偏置。

也就是說,構建出了一個可用的數學模型。

依據這個模型,計算機就可以讀入任何一張同尺寸、類型的照片,對其二值化的數據代入模型中運算,並根據運算結果判斷分類歸屬。

這就是典型的機器學習過程,計算機從數據中自己“學”到了某種規律。

即使這種規律,人類並不一定完全理解,也不見得能用數學語言解釋清楚……

剩下的就比較簡單了。

接下來,江寒又添加了幾個函數,用來輸出運算結果、觀察運行情況等。

最後,從頭調試了一遍,確認沒啥bug後,將代碼重新編譯,然後運行了起來。

屏幕上有一些數字,表示當前正在處理的數據,和訓練進度的百分比。

十分鐘後,後一個數字纔剛剛達到1.3%。

這表示,完整訓練一遍,大約需要13個小時……

之所以這麼慢,主要是江寒的程序,比較追求穩定性,以及調試的方便、快捷,並沒特別講究執行效率。

當然,即使他用心優化,估計也需要8個小時以上,才能完成訓練。

雖然有點慢,但其實沒什麼關係,訓練過程並不需要人工干預,掛機等着就行。

第二天早晨,江寒起牀後,先看了下訓練進度,還差了大約13%才能完成,就先去班級上課。

中午吃完飯回來,訓練終於結束了。

而存放權重和偏置參數的Weight數組,也以內存映像的方式,保存在了一個二進制文件中。

接下來就簡單了。

重建一個一模一樣的感知機模型,加載上這個權重文件,就可以用它來判斷剩餘照片的性別了。

江寒重新改寫代碼,然後運行。

這次十分迅速,只用了不到20分鐘,就將兩萬一千來張照片,全部處理完畢。

這就是“感知機”,或者說“人工神經網絡”的特點。

訓練起來特別耗時,一旦訓練完成,工作起來非常快捷。

至於正確率,江寒初步估計,大大超過99%,21000條未經訓練的數據裡,判斷出錯的,絕不超過10人。

比人類肉眼的識別率低不到哪裡去。

事實上,“感知機”或者說“人工神經網絡”的錯誤率,跟訓練數據、測試數據的質量有很大關係。

如果比較規範,達到100%的識別率都不算稀奇。

可惜實際運用中,總有個別實例,奇葩得超乎想象。

有的時候,人類都幾乎無法識別!

根據老高的說法,這區區幾個錯誤的,可以在把名單下達到各校後,根據反饋修改一下就行。

如果沒有這個託底,就沒法使用“感知機”,因爲沒辦法判斷,哪些人被誤分類了……

得到了全部照片的性別數據後,江寒將其粘貼到了《報名信息表》中。

大功告成後,江寒沒急着找高老師覆命。

這麼快就搞定,老高肯定會十分震驚,然後追問前因後果。

“感知機”解釋起來太費勁,而且也沒那麼高大上,還用不着見人就推銷。

關鍵老高一個人貢獻的那點震驚值,江寒現在已經有點看不上眼了。

休息了一會兒後,江寒就拿着《noip通關寶典》,回班級繼續刷題。

※※※※※

“槓上開”是一個營銷號主。

什麼是營銷號?

百科上說,一般是指組織機構或者個人對外宣傳散發信息所用的賬號,具有目的性,一般是用來宣傳產品或服務的。

狹義上說,就是純粹以賺錢爲目的,專門在各大視頻站上傳垃圾內容的人。

內容粗製濫造?那是基本操作;

虛假宣傳和科普?那是日常作業;

動不動危言聳聽、各種震驚?這根本就不算事兒。

沒事兒噹噹水軍,引導引導輿論,纔是他們的主要業務。

反正很多事情,很多人既不瞭解,也不具備判別能力,還不是哪邊人多信哪邊……

你說網友們義憤填膺?

上面都不管,網友算老幾,錢到手纔是真的。

爲什麼網站不整治?

一個是很難區分,容易誤傷正常的up主;

再一個,網站跟流量什麼仇、什麼怨……

“槓上開”就是這樣一個營銷號,每天出沒於各個視頻站,P站算是他最重要的基本盤。

他最常做的,就是接受客戶的委託,然後不擇手段地完成任務。

視頻網站給的那點補貼,他根本沒放在眼裡,客戶的賞金纔是大頭。

今天,他做完“作業”,上傳完幾個視頻,然後隨便在P站逛了一會兒。

忽然,一個點擊、投幣超高的視頻,躍入了眼簾。

本月熱門?

“槓上開”來了點興趣。

仔細一看標題,頓時有點無語。

《舊光驅改造寫字機器人》……真夠誇張的,你怎麼不改造成航母呢?

不過,好奇之下,他還是點開了視頻,看了一眼。

結果,一看之下,他瞬間就驚呆了。

臥槽,還真是個高手,這動手能力有點逆天了。

本着一個營銷號的職業精神,“槓上開”感到了一種久違的使命感。

必須做點什麼。

沒錯,這麼有創意的視頻,不盜上一把,他簡直渾身藍瘦!

不過,簡單的重發是不行的,網站的審覈員職位,也不是白設置的。

所以,還需要用點技巧,稍微加工、處理一下……

第225章 papa別鬧!第378章 用詞精準第28章 老宋的算盤第143章 別人笑我太瘋癲第368章 能幹的小秘書?第56章 花錢容易賺錢難第281章 當場搶人第124章 招兵買馬第5章 三個系統準備就緒第106章 查戶口第396章 線性CCD掃描相機第170章 只是一場遊戲嗎?第11章 像我這麼專一第36章 家宴第64章 渣男第347章 中計了第426章 坦白從寬,回家過節。第239章 沒有對比就沒有傷害第73章 臭屁不過金少樓第403章 家產億萬,平平無奇第85章 吊橋效應第219章 點到爲止第64章 渣男第12章 重生的使命第297章 Py大法威力無窮第151章 那就別走了第199章 大功告成第9章 實名震驚第354章 迷你3D打印機第305章 再不用就過期了第335章 長痛不如短痛第42章 P站阿婆主第272章 冤死駱駝的最後一根稻草第277章 學之力,9段!第308章 敬可愛又無常的命運第390章 兩份DNA檢測報告單第417章 江寒的圍棋水平第262章 貴有貴的道理第128章 被傳染了怎麼辦?第107章 附加條件第303章 你以爲就這樣而已?第152章 你的承諾呢?第276章 丟1分和拿滿分,哪個更難?第189章 查房第205章 江寒的心性第379章 似真似幻,恍如隔世第405章 身手很好,飯來張口第377章 打造自己的科技品牌請假,存稿丟失一章,正在想辦法重寫第185章 是不是太敏感了?第301章 人間喜劇,喜聞樂見第374章 手工打造LED顯示器第275章 整整齊齊、更高更遠第97章 媽媽問我爲何跪着看手機?第181章 無監督學習和SOM第327章 雨雪交加、霏雯相對第211章 就當幫他們改進一下服務質量了第206章 整理論文第428章 Hack Me的獎品第274章 申請PCT國際專利第239章 沒有對比就沒有傷害第60章 費曼學習法第238章 競爭對手?第53章 大功告成第269章 易中海的困境第284章 江寒的操作第219章 點到爲止第352章 有了一個小助手第77章 多少次回眸第393章 男人不能沒有事業第373章 肉體永生,還是機械飛昇?第56章 花錢容易賺錢難第234章 恐高症第158章 查崗?第405章 身手很好,飯來張口第197章 除了不能說的第362章 社會我老方第213章 橫生枝節第238章 競爭對手?第19章 一切爲了押韻第332章 大功告成,樂不思蜀第219章 點到爲止第412章 小女盆友,青梅竹馬?第56章 花錢容易賺錢難第12章 重生的使命第154章 腦力提升的副作用第27章 買書偶遇第27章 買書偶遇第27章 買書偶遇第414章 蚊子再小也是肉第187章 牀下的小畫冊第361章 有點像“年輕”時的自己第200章 真的只是惡作劇嗎?第316章 順藤摸瓜第19章 一切爲了押韻第334章 比鬧鐘更早第199章 大功告成第421章 身世大白第95章 再花5000也值第375章 沒有操作系統怎麼辦?