“AI 的一些醫(yī)療策,實際就是拋硬?!惫?學(xué)院的數(shù)科學(xué)家 Kun-Hsing Yu 語出驚人。他還充道:即比賽中正率達(dá) 90% 的獲獎模型,再原數(shù)據(jù)集集測試時準(zhǔn)確度最 60-70%,可謂慘敗。這我們很驚。上述科家的觀點自 Nature 最近新發(fā)表一篇文章內(nèi)容對 AI 在醫(yī)療領(lǐng)域的可復(fù)性提出質(zhì)疑,呈諸多醫(yī)療域及場景,AI 自帶的黑箱性造成的患。更值關(guān)注的是盡管問題在,但 AI 仍在醫(yī)療領(lǐng)域大模推廣使。舉例來,數(shù)以百的美國醫(yī)已在使用種 AI 模型標(biāo)記血癥早期狀,但在 2021 年,該模被發(fā)現(xiàn)未識別率高 67%。所以,AI 究竟帶來了哪些醫(yī)隱患,如解決?繼往下看。?圖源:Nature人工智能“看病難我們先從佛醫(yī)學(xué)院數(shù)據(jù)科學(xué) Kun-Hsing Yu 發(fā)現(xiàn) AI“拋硬幣”始末聊起在醫(yī)療領(lǐng),AI 用于診斷檢人體一直疑聲不斷Kun-Hsing Yu 此番研究也是望有個直體感。他定了常見癥之一的癌,每年 350 萬美國人該病癥去,若能更通過 CT 掃描篩查,很多人以免于死。該領(lǐng)域確備受機(jī)學(xué)習(xí)界關(guān),為此,2017 年業(yè)內(nèi)還舉了面向肺篩查的競。該活動屬于 Kaggle 的 Data Science Bowl 賽事,數(shù)由主辦方供,涵蓋 1397 位患者的部 CT 掃描數(shù)據(jù)參賽團(tuán)隊開發(fā)并測算法,最大賽按準(zhǔn)率給予評,在官宣,至少五獲獎模型確度 90% 以上。但 Kun-Hsing Yu 又重新測了一輪,后震驚地現(xiàn),即便用原比賽據(jù)的子集這些“獲”模型最準(zhǔn)確率卻降到了 60-70%?!?一參賽者分的模型結(jié)上述狀況非個例。林斯頓一博士,Sayash Kapoor,在 17 個領(lǐng)域的 329 項研究中報告了可復(fù)性失敗陷阱,醫(yī)名列其中基于研究這位博士自己的教還組織了個研討會吸引了 30 個國家 600 名科研者與。一位橋的高級究員在現(xiàn)表示,他機(jī)器學(xué)習(xí)術(shù)預(yù)測新傳播流行勢,但因同來源的據(jù)偏差、練方法等題,沒有次模型預(yù)準(zhǔn)確。還一位研究也分享了 —— 自己用機(jī)器學(xué)研究心理題,但無復(fù)現(xiàn)的問。在該研會上,還參與者指谷歌此前到的“坑。他們曾 2008 年就利用機(jī)器學(xué)習(xí)析用戶搜所產(chǎn)生數(shù)集,進(jìn)而測流感暴。谷歌為還鼓吹一。但事實,它并未預(yù)測 2013 年的流感暴發(fā)一家獨(dú)立究機(jī)構(gòu)指,該模型一些流感行無關(guān)的節(jié)性詞匯行了關(guān)聯(lián)鎖定。2015 年,谷歌停止對外公開趨勢預(yù)測Kapoor 認(rèn)為,就可重復(fù)來說,AI 模型背后的代碼和據(jù)集都應(yīng)用并不出誤。那位究新冠流模型的劍 ML 研究者補(bǔ)充,數(shù)據(jù)隱問題、倫問題、監(jiān)障礙也是致可重復(fù)出問題的灶。他們續(xù)補(bǔ)充道數(shù)據(jù)集是題根源之。目前公可用的數(shù)集比較稀,這導(dǎo)致型很容易生帶偏見判斷。比特定數(shù)據(jù)中,醫(yī)生一個種族的藥比另個種族多這可能導(dǎo) AI 將病癥與種關(guān)聯(lián),而病癥本身另一個問是訓(xùn)練 AI 中的“透題”現(xiàn)。因數(shù)據(jù)不足,用訓(xùn)練模型數(shù)據(jù)集和試集會重,甚至該況一些當(dāng)人還不知,這也可導(dǎo)致大家模型的正率過于樂?!?Sayash Kapoor 博士盡管問題存,但 AI 模型仍已被應(yīng)用在際診斷場中,甚至接下場看。2021 年,一個名為 Epic Sepsis Model 的醫(yī)療診斷模型被出嚴(yán)重漏問題。該型用于敗癥篩查,過識別病早期患病征檢測,免這種全感染的發(fā),但密歇大學(xué)醫(yī)學(xué)研究者通調(diào)查分析 27697 人的就診情況,果發(fā)現(xiàn),模型未能別 67% 敗血癥病患。此后該公司對型進(jìn)行了調(diào)整。一計算生物家對此指,該問題所以較難決,也同 AI 模型透明度不有關(guān)?!?們在實踐部署了無理解的算,也并不道它帶什偏見”,補(bǔ)充道。?曝出 Epic Sepsis Model 問題的文章可以確的是,要上述問一直未能決,商業(yè)頭及相關(guān)業(yè)項目也些舉步維 ——去年谷歌谷歌康(Google Health)宣布人拆分到各隊,前幾,谷歌孵的生命健子公司 Verily 又被曝裁員約 15%。有沒改進(jìn)措施?于這樣的狀,一些究者和業(yè)人士也在手改進(jìn)醫(yī) AI。一方面,是建靠譜的大數(shù)據(jù)集涵蓋機(jī)構(gòu)國家和人等多方面數(shù)據(jù),并所有人開。這種數(shù)庫其實已出現(xiàn)了,如英國和本的國家物庫,以重癥病房程監(jiān)護(hù)系 eICU 合作的數(shù)據(jù)庫等。拿 eICU 合作研究數(shù)據(jù)庫說,這里大約有 20 萬次的 ICU 入院相關(guān)據(jù),由飛浦醫(yī)療集和 MIT 的計算生理學(xué)實驗共同提供為了規(guī)范據(jù)庫的內(nèi),需要建收集數(shù)據(jù)標(biāo)準(zhǔn)。例一個關(guān)于療結(jié)果伙關(guān)系的可測數(shù)據(jù)模,讓各醫(yī)機(jī)構(gòu)能以同的方式集信息,樣有利于強(qiáng)醫(yī)療保領(lǐng)域的機(jī)學(xué)習(xí)研究當(dāng)然,與同時,也須重視嚴(yán)保護(hù)患者隱私,而只有當(dāng)患本人同意,才有資把他們的據(jù)納入庫另一方面想要提升器學(xué)習(xí)質(zhì)的話,消冗余數(shù)據(jù)很有幫助因為在機(jī)學(xué)習(xí)中,余數(shù)據(jù)不會延長運(yùn)時間、消更多資源而且還很能造成模過擬合 —— 也就是訓(xùn)練出來模型在訓(xùn)集上表現(xiàn)好,但是測試集上現(xiàn)較差。于 AI 圈很熱門預(yù)測蛋白結(jié)構(gòu),這問題已經(jīng)到了有效解。在機(jī)學(xué)習(xí)過程,科學(xué)家成功地從試集中刪了和訓(xùn)練用到的過相似的蛋質(zhì)。but,各病人療數(shù)據(jù)之的差異,沒有不同白質(zhì)結(jié)構(gòu)異那么明。在一個據(jù)庫中,能有許許多病情非相似的個。所以我需要想清到底向算展示什么據(jù),才能衡好數(shù)據(jù)代表性和富性之間關(guān)系。哥哈根大學(xué)轉(zhuǎn)化性疾系統(tǒng)生物家 S?ren Brunak 如是評價除此之外還可以請業(yè)大佬們定一個檢表,規(guī)范療 AI 領(lǐng)域的研開發(fā)步驟然后,研人員就能方便地搞楚先做什、再做什,有條不地操作;能 Check 一些可能遺漏問題,比一項研究回顧性還前瞻性的數(shù)據(jù)與模的預(yù)期用是否匹配等。其實現(xiàn)有已有種機(jī)器學(xué)檢查表,中大部分基于“EQUATOR Network”先提出的,是一項旨提高健康究可靠性國際倡議此前,上提到的普斯頓的 Kapoor 博士,也和團(tuán)隊共發(fā)表了一包含 21 個問題的清單。他建議,對一個預(yù)測果的模型研究人員確認(rèn)訓(xùn)練中的數(shù)據(jù)早于測試,這樣可確保兩個據(jù)集是獨(dú)的,不會數(shù)據(jù)重疊相互影響參考鏈接[1]https://www.nature.com/articles/d41586-023-00023-2[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA本文來自微信公眾:量子位 (ID:QbitAI),作者詹士 Alex