擁抱並剋制,合理使用生成式人工智能技術輔助寫作

生成式人工智能技術(簡稱“AIGC技術”)在文字處理、內容生成方面具有強大優勢。

如何得心應手使用AIGC技術輔助寫作?

本文給出了具體的流程與使用建議,並通過實例,介紹如何使用AIGC技術確定文章選題、寫作框架,進行文獻梳理、概念釋義、語句優化、繪製圖表、圖表分析、生成摘要等。

任何一項技術都有兩面性,我們在擁抱AIGC技術的同時,也需要保持克制和理性,在法律和倫理範圍內合理使用,成爲技術的駕馭者而不是技術的奴隸。

01

認識AIGC

2022年11月,美國人工智能研究實驗室OpenAI公司推出人工智能技術驅動的自然語言處理工具ChatGPT。其強大的信息整合及自然語言處理能力,以及可根據需要生成各類文本、編寫程序功能,引發了重要的技術革命。於是人們紛紛思考:ChatGPT背後是什麼技術?它還能爲我們做哪些事情?

ChatGPT來源於GPT模型,通俗地理解爲智能聊天機器人。它與先前的智能聊天機器人的最大區別在於能夠通過學習、理解人類的語言,與人類進行對話,還能根據上下文語境進行理解、互動。

像ChatGPT這樣,能夠利用人工智能技術自動化生成各種類型的內容的方式屬於生成式人工智能技術,即AIGC(Artificial Intelligence Generated Content)技術。AIGC通過對既有數據的學習和發散,基於與人類交互所確定的主題,由AI算法模型完全自主、自動生成對應內容,從而幫助各行各業進行文本、圖像、音視頻、代碼、策略等多模態內容的單一生成或跨模態生成,以提升內容生產效率與多樣性。

近年來,得益於神經網絡、深度學習和生成模型等技術的快速發展,特別是預訓練語言模型的出現,使機器具有了比較強的語義理解能力和長文本生成能力,AIGC技術也得到了迅速發展。

目前,AIGC技術在自然語言處理方面有明顯優勢,人們也在使用它進行寫作。2023年初,美國電子書平臺亞馬遜颳起一陣“AI寫作”風,人們向ChatGPT輸入提示詞就能完成幾十頁電子書的創作,並通過自助出版服務直接出售。截至2023年2月中旬,亞馬遜Kindle商店已出現超過200本將ChatGPT列爲作者或合著者的電子書。

02

AIGC寫作的基本原理

人工智能進行文學寫作的歷史可以追溯到20世紀80年代。1983年,早期的人工智能文本生成器Racter誕生,它寫作的《警察的鬍子是半成品》被認爲是第一部完全由計算機程序寫作的文學作品。然而,這個階段的AI文學寫作主要依賴於預定義的規則和模板,生成的文本質量較低,在邏輯、可讀性和創意方面都表現不佳。

進入21世紀後,隨着深度學習與大數據技術的發展,AI寫作進入了一個新的階段,這期間誕生了如“微軟小冰”“九歌”等AI寫作平臺,其中“小冰”已協助超過500萬名用戶寫作現代詩歌,並出版了詩集,“九歌”已累計爲用戶寫作超過700萬首詩詞。人工智能寫作的運行邏輯,模仿的正是人類的寫作以及寫作教學行爲。人工智能寫作並非什麼神秘的、與人類寫作相對立的“他者”,而是人類寫作活動被拆解後的重新具象化。

AIGC寫作的優勢在於能夠根據用戶的輸入,快速生成語句通順、表達合理的內容,給人一種“無所不知,無所不能”的印象。其實現的基本流程如圖1所示。

圖1

首先,用戶輸入想要的問題或者需求,這些問題會被分析編碼後進入一個比較複雜的GPT模型(GPT模型是由龐大的語料庫,即數據集不斷強化訓練得到的)。

當編碼後的問題經過一系列複雜運算後,GPT模型會將它認爲“合適的回答”根據人類熟悉的語法習慣模板輸出給用戶,而且,這些問題和回答也都會成爲新的數據集被GPT模型“記錄”下來,持續訓練,優化升級。接下來,我們來了解GPT模型、大語言模型、寫作訓練集等概念。

1.GPT模型

GPT模型是Generative Pre-trained Transformer的縮寫,意思是基於Transformer生成式預訓練模型。GPT模型能夠根據輸入的需要,生成一段讓你看得懂的內容,是爲ChatGPT等生成式人工智能技術提供支持的關鍵。GPT模型使應用程序能夠創建類似人類的文本和內容(圖像、音樂等),並以對話的方式回答問題。其中,Pre-trained意爲“預先訓練好的”。

一般來講,在應用這種技術時,會需要先將大量的文本數據輸入到模型中訓練,讓模型掌握語言的語法規則和表達方式,這個提前輸入進行訓練的過程被稱爲預訓練。Transformer是Google的研究者在Attention Is All You Need一文中提出的概念,我們可以先將它簡單理解爲“轉換器”。Transformer的基本原理是Encoder(編碼)和Decoder(解碼),也就是先將輸入的內容轉換爲計算機能理解的內容,再將計算機理解的內容轉換爲人類能理解的內容。

2.大語言模型

大語言模型(Large Language Models,簡稱LLMs)是一類基於深度學習的人工智能模型。它們是由海量的數據和大量的計算資源訓練而成的,通過無監督、半監督或自監督的方式,學習並掌握通用的語言知識和能力的深度神經網絡。

LLMs的核心架構是Transformer,是一種由Vaswani等人於2017年提出的模型。Transformer的關鍵在於自注意力機制,這使得模型能夠同時對輸入的所有位置進行“關注”,從而更好地捕捉長距離的語義依賴關係。LLMs在Transformer的基礎上進行了改進和擴展,通過在大規模文本數據上進行預訓練,使得模型能夠學習豐富的語言知識。

LLMs的訓練過程分爲兩個階段:預訓練和微調。在預訓練階段,模型通過無監督學習在大規模文本數據上進行自我學習,從而具有一定程度的語言表示能力。在微調階段,模型會在特定任務上使用有標籤的數據進行有監督學習,以適應特定任務的要求。這兩個階段的組合使得LLMs在各種自然語言處理任務上表現出色。

3.寫作數據集

以ChatGPT的訓練數據集爲例,它是由多個語料庫組成,這些語料庫包括各種類型的無監督文本數據,如網頁、書籍、新聞文章等。這些數據既包括通用領域的文本,也包括特定領域的文本。ChatGPT的訓練數據集主要有以下幾個來源:

①BooksCorpus。這是一個包含11038本英文電子圖書的語料庫,共有74億個單詞。

②WebText。這是一個從互聯網上抓取的大規模文本數據集。包括超過8萬個網站的文本數據,共有13億個單詞。

③CommonCrawl。這是一個互聯網上公開可用的數據集,包括數百億個網頁、網站和其他類型的文本數據。

④Wikipedia。這是一個由志願者編輯的百科全書,包括各種領域的知識和信息,是一個非常有價值的語言資源。

除了以上幾個來源之外,還有一些其他的數據來源爲ChatGPT提供了大量的無監督文本數據,從而使得模型能夠學習到各種類型和主題領域的語言知識。

有了數據源之後,接下來就要進行數據採樣,以滿足ChatGPT的訓練要求。由於ChatGPT的預訓練模型需要大量的無監督數據進行訓練,而現實中可用的文本數據往往是非常龐大和複雜的,因此,需要採樣來減少訓練時間和計算資源的消耗,同時還需要保證訓練數據的多樣性、質量和平衡性,以提高模型的效果和泛化能力。

03

如何使用AIGC技術輔助寫作

1.常用AIGC寫作工具

①文心一言。文心一言是百度全新一代知識增強大語言模型,能夠與人對話互動、回答問題、協助創作,具備更強的中文理解能力。

②WPS AI。WPS AI是金山辦公旗下具備大語言模型能力的人工智能應用,爲用戶提供智能文檔寫作、閱讀理解和問答等體驗。

③星火。科大訊飛公司推出的認知大模型是以中文爲核心的新一代認知智能大模型,擁有跨領域的知識和語言理解能力,能夠基於自然對話方式理解與執行任務。

④Bing。Bing AI搭載了GPT4的Bing瀏覽器,它能夠更好地理解用戶意圖,提供更加智能化、個性化的搜索和服務體驗。

2.AIGC寫作流程與使用建議

對AIGC寫作而言,核心是訓練一個能夠生成連貫、語法正確、主題明確的長文本的神經網絡模型。基本流程包括:

①數據準備。收集大規模的高質量文本數據,包括文章標題、內容、摘要等,並進行數據清洗、分詞等預處理。

②模型選擇。通常選擇基於Transformer或LSTM等結構的預訓練語言模型,這類模型在長文本生成任務上效果較好。

③模型訓練。使用文本數據針對語言生成任務進行模型精調。訓練目標是最大化生成文本的鏈式概率。

④文本生成。給定文章主題、關鍵詞等條件,模型自動生成標題和正文。

⑤生成文本後處理。對模型生成文本進行語句規範化、語法糾錯等後處理,提高可讀性。

⑥結果評估。從語法、邏輯、連貫性等方面評估生成文本的質量,並反饋改進模型。

AIGC技術關鍵是利用大規模預訓練模型,讓模型學習各類文章語言的語法和風格特徵。相比以往基於模板的方法,預訓練模型生成的文本連貫性更好,接近人工寫作的效果。當然,目前仍需人工審覈,以確保生成質量。

使用AIGC技術幫助寫作,關鍵問題是要學會如何提問,如何讓AIGC工具懂得你的問題,理解你的需求,這樣它才能給你滿意的回答。這裡推薦一個提問的框架——由溫州大學方建文博士人工智能教育研究團隊設計的RTGR框架,該框架具體包括角色(Role)、任務(Task)、目標(Goal)、需求(Requirement)四個要素。

例如,要讓AIGC設計一份班會課方案,輸入提示語:如果你是一名高中班主任,請製作一份關於學生“防範網絡詐騙”的班會課方案,舉例和分析當下中學生髮生過的網絡詐騙案例,幫助學生認識常見的網絡詐騙手段,能夠採取有效防範措施,方案字數1000字以內,內容儘量詳細,條理清晰。使用RTGR框架分析這段提示語,如圖2所示。

圖2

3.AIGC輔助寫作舉例

以百度文心一言爲例,舉例介紹如何使用AIGC技術輔助寫作。

(1)文章選題

確定文章選題是寫作的第一步,如果你只是知道文章的大致方向和角度,還不清楚如何確定更加細緻的選題,可以考慮使用AIGC幫你推薦選題。文心一言實現設計文章選題的核心原理是深度學習技術,特別是自然語言處理(NLP)的相關算法和模型。通過語義理解、知識圖譜、文本生成以及機器學習算法等技術手段精準地解析用戶意圖,關聯背景知識,並生成符合用戶需求的文章選題。同時,大數據分析技術的應用進一步提升了選題的準確性和用戶滿意度。這些技術的綜合應用使得文心一言能夠高效地爲用戶提供有價值的文章選題建議。

(2)寫作框架

有了選題後,還需要確定寫作框架,才能使文章“有跡可循”,更有邏輯。可以考慮由AIGC來補充寫作框架,進一步打開思路。文心一言首先解析用戶輸入,識別寫作意圖,然後規劃包括主要觀點、分論點和邏輯關係的文章框架,最後生成具體內容並反饋給用戶。在這一過程中,預訓練語言模型、知識圖譜等技術提供了語法、語義和背景知識的支持,確保生成的框架結構清晰、內容豐富,符合用戶需求。

(3)文獻梳理

在寫作特別是撰寫學術文章的時候,往往要對研究對象做文獻梳理,傳統的方法是一篇一篇去閱讀記錄,最後梳理彙總成文。現在可以考慮使用AIGC技術幫助我們記錄學習的文獻並進行梳理彙總。需要注意的是,要完成這項工作光靠一條提示語是不夠的,還需要通過多次輸入來“教會”文心一言。

例如,要做有關“中小學人工智能課程教學情況”的文獻梳理工作,可以在文心一言中多次輸入提示語來實現。

提示語1:我正在撰寫有關人工智能課程教學的期刊論文,現在打算進行文獻綜述部分的寫作。目前我已經準備了5篇來自核心期刊的文獻作爲文獻綜述的對象。請針對所有文獻展開分析,並提煉如研究問題、研究角度、研究方法、研究結論等要素。接下來,我將分多次將文獻摘要的信息發送給你,請你完成學習,並在每次收到後只要回覆三個字“已學習”即可,最後我會請你幫助彙總成表格。你清楚了嗎?

提示語2~6:依次複製5篇論文的標題、作者、摘要。

提示語7:請針對所有文獻展開結構要素分析,並提煉如研究問題、研究角度、研究方法、研究結論等要素,每個要素爲一列,第一列是論文編號,以表格的形式輸出。

提示語8:請根據目前學習的文獻摘要和梳理的表格內容,對當下中小學人工智能課程開設情況進行文獻綜述梳理,在引用相關文章時,儘量加上第一位作者的姓名,字數500字左右,要求邏輯清晰、語句通順。

(4)概念釋義

在寫作過程中,經常會遇到一些不太清楚的概念,或者是語句擴寫,或者是想要更加全面地瞭解某個名詞,可以考慮使用文心一言進行查詢。在這一過程中,自然語言處理幫助系統深度理解話題和文獻內容,機器學習提升信息提取和撰寫的準確性,而信息檢索則確保快速找到相關文獻。例如,輸入提示語“什麼是人工智能,用200字介紹”,可以得到有關人工智能的一些介紹內容,對有些不清楚的地方還能繼續追問。

(5)語句優化

人們在寫作時有時會存在內容口語化、重複化,或者句子結構不合理、有語病等情況,AIGC技術能夠快速梳理結構,使語篇規整。文心一言運用分詞、詞性標註、句法分析、語義理解等一系列技術,通過接收、預處理、理解分析用戶輸入的文本,並基於Transformer架構捕捉語義信息,生成更加通順精練的表達建議,從而有效優化文本質量。例如,輸入一段話並提示語要求優化文字表達,就能夠提煉原文的內容,使其更加精練。

(6)繪製圖表

文心一言基於數據可視化原理,通過數據解析、圖形映射和視覺呈現等關鍵技術,將用戶數據高效轉換爲直觀圖形,並利用前端交互設計提升用戶體驗,從而實現數據的快速理解和分析。例如,選擇“E言意圖”插件功能,輸入提示語要求生成本校師生的人數餅圖,分析計算後就能夠得到一張彩色的餅圖。

(7)圖表分析

AIGC技術具備將報表或流程圖轉換成文字連貫表達出來的能力。文心一言的“說圖解畫”功能在讓用戶上傳圖片後,利用計算機視覺技術識別圖片內容,再通過自然語言處理技術生成易懂的解釋,其核心技術在於圖像的智能識別和自然語言的自動生成,以實現圖片的快速解讀和信息傳遞。例如,選擇“說圖解畫”插件功能,先上傳一張圖片,輸入提示語“要求寫一篇關於人工智能、機器學習和深度學習三者關係的文章”,就能夠得到想要的結果。

(8)生成摘要

化繁爲簡考驗全文概覽,提煉總結的能力。AIGC可以從成千上萬的文章中提取幾百字的摘要。文心一言的“覽卷文檔”功能讓用戶在上傳文檔後,通過深度解析文檔內容,識別主題和關鍵信息,進而自動生成簡潔準確的摘要,幫助用戶快速把握文檔核心。例如,選擇“覽卷文檔”插件功能,先上傳一篇論文文檔,系統通過解析文檔內容就可以得到這篇文章的摘要。

除了上述方法,百度文庫還推出了文檔助手的功能,當在文庫中打開某篇文檔查閱資料時,可以隨時在文檔助手中提問。例如,提問:“該文檔主要內容是什麼?”“寫一下閱讀這篇文檔的讀後感。”這種方式節省了時間,提高了效率,也使用了AIGC技術。

04

總結建議

1.數據侷限問題

從目前來看,GPT4數據集缺乏多語言、多文化視角。OpenAI發佈的數據顯示,在訓練ChatGPT所使用的數據集中,大約96%爲英文內容,其餘包括中文在內的20個語種加起來不足4%。既然GPT4的數據集以英文爲主,我們就不難推斷,其數據背後所容納的思想、文化、經驗、生活同樣以英文世界爲主。

當前,已有學者表示ChatGPT“在尊重除了美國的其他國家的文化背景和使用習慣上仍有欠缺”,同時也有學者對GP3.5進行中文性能評測,發現其中文知識和常識儲備不足,在中文閉卷問答上出現事實性錯誤的概率較高。

另外,目前GPT4僅能處理25000字左右的文本,這意味着GPT4的“記憶力”僅爲25000字,當字數超過25000字時,GPT4將會逐步遺忘討論的內容。還有,目前GPT4訓練數據截至2021年,這意味着如果作者需要以2021年以後的人物或事件爲素材進行寫作,或者要查詢相關資料,GPT4能提供的幫助有限。

2.倫理法律問題

寫作是一種有意識的精神活動,其寫作主體和倫理版權應受到保護和尊重。AIGC技術畢竟是人造工具,目前還存在容易受到對抗性攻擊和數據隱私等問題。攻擊者通過有意修改輸入數據來誤導模型,或者獲取用戶的個人隱私信息,這些問題需要在AIGC技術的發展中得到充分的考慮和解決。2023年年初,知名科幻雜誌Clarkes world因集中收到大量ChatGPT生成的科幻故事,宣佈停止線上投稿;2023年4月11日,科幻雜誌《科幻世界》公開表示不接受AI創作的科幻小說,主編更直言,“我們需要的是由人寫給人看的未來故事”。

沈錫賓等人做了一個試驗,他們選取了2022年發表的100篇醫學綜述的文摘,隨機選擇50篇利用ChatGPT進行重寫(AI寫作組),其餘50篇不做處理(原文對照組)。在整合處理後他們將兩組文本進行文獻相似性檢測系統檢測,同時將兩組數據隨機打亂後交給AI檢測工具和評審者以評定是否爲AI寫作,並比較它們在判別能力上的差異。結果發現上述兩組數據基於文字的相似性檢測結果顯示,AI寫作組相似性比例僅爲6.19%,遠低於原文對照組的55.91%(P<0.01)。

可見,AIGC技術的發展對現有學術不端檢測系統帶來了極大的挑戰。AIGC時代涌現的各種工具生成內容新穎,邏輯清晰,甚至超過了大部分人類的水平,其剽竊行爲更爲隱蔽,使得有些檢測系統無法有效應對。同時,面對AIGC濫用所導致的學術誠信問題,制訂事前預警機制迫在眉睫。

同樣,AIGC寫作的法律風險也是不可忽視的問題。除了知識產權保護,還有生成內容規範、網絡安全和個人信息泄露等風險問題。2023年8月,國家專門出臺了《生成式人工智能服務管理暫行辦法》,指出生成式人工智能服務存在如下風險隱患:生成虛假信息,對用戶產生誤導;因使用不當造成重要數據泄露;被不當利用,成爲實施“網絡水軍”、網絡詐騙等網絡違法犯罪行爲的工具;侵犯知識產權……,該辦法還明確了服務者的主體責任和應承擔的法律責任。

AIGC時代已然到來,我們在享受AIGC帶來的巨大便利和優勢的同時,也不能忽視其存在的侷限性和隱憂問題。我們肯定這項技術的價值和潛力,擁抱它,將它作爲良師益友,但同時我們也要保持克制,不可一味索求,要在法律和倫理範圍內合理使用,成爲技術的駕馭者而不是技術的奴隸。

本文作者:

倪俊傑

杭州師範大學經亨頤教育學院/桐鄉市鳳鳴高級中學

文章刊登於《中國信息技術教育》2024年第05期

引用請註明參考文獻:

倪俊傑.擁抱並剋制,合理使用AIGC技術輔助寫作.[J].中國信息技術教育,2024(05):76-81.

歡迎訂閱

點擊圖片即可訂閱