加州大學舊金山分校:ChatGPT當急診員會如何?

(KRON) — 您會信任人工智能來處理您的急診室就診嗎?加利福尼亞大學舊金山分校的研究人員於週二通過新發表的一項研究回答了這個問題。

簡而言之,研究人員覺得人工智能當下還不應爲患者做手術或開藥。然而,人工智能不僅被證明是未來醫院的一個有希望的補充,而且更有趣的是,在患者急診就診的某些方面,它已經超越了當地的臨牀醫生。

據國家醫學圖書館所說,全國的急診部門都人滿爲患。因此,研究人員想看看語言學習模型 (LLM) 是否至少能幫助醫院完成接收急診患者的基本任務。

加州大學舊金山分校的研究人員收集並運用了超過 1 萬份真實的成人急診就診記錄,並對 ChatGPT-4(世界上最受歡迎的 LLM 之一)展開了測試。根據該研究,該人工智能軟件在患者急診就診的三個不同方面進行了測試:

該研究是僅有的少數幾個使用真實世界臨牀數據而非模擬場景來評估大型語言模型的研究之一,並且是首個爲此目的使用超過 1000 個臨牀病例的研究。

在所有三個臨牀推薦任務中,ChatGPT 表現“不佳”,平均準確率低於醫生。根據該研究,該人工智能軟件“在其推薦中過於謹慎,以犧牲特異性爲代價而具有高敏感性。”

“這對於臨牀醫生來說是一則有價值的信息,切勿盲目信任這些模型,”該研究的主要作者、博士後學者 克里斯·威廉姆斯說。“ChatGPT 可以回答醫學考試問題並幫助起草臨牀筆記,但它目前並非爲需要多重考慮的情況而設計,比如急診科的情況。”

儘管在放射學和抗生素處方建議方面的表現顯著落後,但 ChatGPT 在確定患者進入急診室時的初始入院狀態方面表現更好。

ChatGPT 和臨牀醫生被要求通過在“嚴重病情”和“不太緊急的病情,如手腕骨折”之間進行選擇,來判定患者的“嚴重程度”和優先級。 根據這項研究,在 500 對的較小子樣本中,人工智能的正確率達 89%,而醫生的正確率爲 86%。

儘管表現優於他們,但臨牀醫生表示,讓人工智能協助確定患者需求與醫院資源的優先次序,可以騰出“關鍵時間來治療病情最嚴重的患者,同時爲需要同時處理多個緊急請求的臨牀醫生提供備份決策工具”。

根據這項研究,偏見是將人工智能納入急診室的主要問題之一。更具體地說,“由於用於訓練它們的數據存在偏差”,可能會發現種族和性別偏見。

威廉姆斯說:“展示人工智能能做很酷的事,這很棒,但最重要的是考慮這項技術在幫助誰和阻礙誰。僅僅能夠做某事算不算是使用人工智能的標準,還是得能夠爲所有類型的患者把事情做好才行?”

此前,當被要求給出簡單的心血管疾病預防建議時,GPT 3.5-turbo 提供了“大體上合適的迴應”。當在公共社交媒體論壇上被問及他們對自己的推薦過程有何感受時,公衆表示他們既喜歡人工智能的互動,又認爲它比醫生的迴應具有更強的同理心。

“沒有完美的解決方案,但知道像 ChatGPT 這樣的模型有這些傾向,我們肩負着思考如何讓它們在臨牀實踐中表現出色的責任,” 威廉姆斯說。“即將開展的工作會處理在臨牀環境中如何最佳部署這項技術的問題”