斯坦福大學(xué) | 穩(wěn)定擴(kuò)散能否解決醫(yī)學(xué)成像數(shù)據(jù)的空白?
指南者留學(xué)
2022-12-01 09:29:57
閱讀量:1306
<p>專攻罕見病的醫(yī)生只有這么多學(xué)習(xí)的機(jī)會。在這些領(lǐng)域,缺乏培訓(xùn)學(xué)生所需的各種衛(wèi)生保健數(shù)據(jù)是一個關(guān)鍵挑戰(zhàn)。“當(dāng)你在數(shù)據(jù)稀缺的環(huán)境中工作時,你的表現(xiàn)與經(jīng)驗(yàn)相關(guān)——你看到的圖像越多,你就越好,”胸科放射科醫(yī)生、斯坦福醫(yī)學(xué)與成像人工智能中心(AIMI)博士后研究員Christian Bluethgen說。過去7年,他一直在研究罕見的肺部疾病。</p>
<p> </p>
<p>今年8月,當(dāng)Stability AI向公眾發(fā)布其文本到圖像基礎(chǔ)模型“穩(wěn)定擴(kuò)散”(Stable Diffusion)時,Bluethgen有了一個想法:如果你能將醫(yī)學(xué)上的真實(shí)需求與通過簡單的文本提示創(chuàng)建美麗圖像的便捷結(jié)合起來,會怎么樣?如果“穩(wěn)定擴(kuò)散”(Stable Diffusion)能夠創(chuàng)建精確描述臨床背景的醫(yī)學(xué)圖像,就可以緩解訓(xùn)練數(shù)據(jù)的差距。Bluethgen與Pierre Chambon合作,Pierre Chambon是斯坦福大學(xué)計算與數(shù)學(xué)工程研究所的研究生,也是AIMI的機(jī)器學(xué)習(xí)研究員,他們設(shè)計了一項(xiàng)研究,尋求擴(kuò)展穩(wěn)定擴(kuò)散的能力,以生成最常見的醫(yī)學(xué)圖像——胸部x光片。</p>
<p> </p>
<p>他們一起發(fā)現(xiàn),經(jīng)過一些額外的訓(xùn)練,通用潛在擴(kuò)散模型在創(chuàng)建具有可識別異常的人類肺部圖像方面表現(xiàn)得驚人地好。這是一個很有希望的突破,可能會導(dǎo)致更廣泛的研究,更好地理解罕見疾病,甚至可能開發(fā)新的治療方案。</p>
<p> </p>
<p><span class="h1"><strong>從通用到特定領(lǐng)域</strong></span></p>
<p><br />到目前為止,使用自然圖像和語言訓(xùn)練的基礎(chǔ)模型在給定特定領(lǐng)域的任務(wù)時表現(xiàn)不佳。醫(yī)學(xué)和金融等專業(yè)領(lǐng)域有自己的行話、術(shù)語和規(guī)則,這些在一般的培訓(xùn)數(shù)據(jù)集中沒有考慮到。但該團(tuán)隊(duì)的研究有一個優(yōu)勢:放射科醫(yī)生總是準(zhǔn)備一份詳細(xì)的文本報告,描述他們分析的每張圖像的發(fā)現(xiàn)。通過將這些訓(xùn)練數(shù)據(jù)添加到他們的穩(wěn)定擴(kuò)散模型中,該團(tuán)隊(duì)希望該模型能夠在提示相關(guān)醫(yī)學(xué)關(guān)鍵詞時學(xué)會創(chuàng)建合成醫(yī)學(xué)成像數(shù)據(jù)。</p>
<p> </p>
<p>Chambon解釋說:“我們不是第一個訓(xùn)練胸片模型的公司,但以前你必須用專門的數(shù)據(jù)集來做這件事,并且為計算能力付出很高的代價。”“這些障礙阻礙了許多重要的研究。我們想看看你是否可以引導(dǎo)這個方法,使用現(xiàn)有的開源基礎(chǔ)模型,只需要做一些細(xì)微的調(diào)整。”</p>
<p><img src="https://hai.stanford.edu/sites/default/files/inline-images/Fev6bXTUYAUGuiL.jpg" alt="Images of real chest x-rays and those created with Stable Diffusion" width="808" height="409" /></p>
<p><strong><span class="h1">三步過程</span></strong></p>
<p><br />為了測試穩(wěn)定擴(kuò)散的能力,Bluethgen和Chambon檢查了模型架構(gòu)的三個子組件:</p>
<p> </p>
<p>變分自編碼器(VAE),壓縮源圖像和解壓縮生成的圖像;</p>
<p><br />文本編碼器,它將自然語言提示轉(zhuǎn)換為自動編碼器可以理解的向量;</p>
<p><br />U-Net,它在潛在空間中作為圖像生成過程(稱為擴(kuò)散)的大腦。</p>
<p><br />研究人員創(chuàng)建了一個數(shù)據(jù)集來研究圖像自動編碼器和文本編碼器組件。他們從兩個大型的公共數(shù)據(jù)集CheXpert和MIMIC-CXR中隨機(jī)選擇了1000張正面x光片。然后,他們添加了五張手工挑選的正常胸部x光照片和五張有明顯異常的照片(在這種情況下,組織之間的液體積聚,稱為胸腔積液)。這些圖像與一組簡單的文本提示相匹配,用于測試微調(diào)組件的各種方法。最后,他們從LAION-400M開放數(shù)據(jù)集中提取了100萬個通用文本提示的樣本(LAION-400M開放數(shù)據(jù)集是一個大規(guī)模的、非策劃的圖像-文本對集,設(shè)計用于模型訓(xùn)練和廣泛的研究目的)。</p>
<p> </p>
<p>以下是他們在高水平上提出的問題和發(fā)現(xiàn):</p>
<p> </p>
<p>文本編碼器:使用來自O(shè)pen AI的連接文本和圖像的通用領(lǐng)域神經(jīng)網(wǎng)絡(luò)CLIP,當(dāng)給出像“胸腔積液”這樣的特定于放射學(xué)領(lǐng)域的文本提示時,模型能否產(chǎn)生有意義的結(jié)果?答案是肯定的——文本編碼器本身為U-Net提供了足夠的上下文,以創(chuàng)建醫(yī)學(xué)上準(zhǔn)確的圖像。</p>
<p> </p>
<p>在自然圖像上訓(xùn)練的穩(wěn)定擴(kuò)散自編碼器能否在未壓縮后成功地呈現(xiàn)醫(yī)學(xué)圖像?結(jié)果,又是肯定的。“原始圖像中的一些注釋被打亂了,”Bluethgen說,“所以它不是完美的,但采用第一性原理的方法,我們決定標(biāo)記為未來探索的機(jī)會。”</p>
<p>U-Net:考慮到其他兩個組件的開箱即用能力,U-Net能否根據(jù)提示創(chuàng)建解剖學(xué)上正確的圖像,并代表正確的異常集?在這種情況下,Bluethgen和Chambon認(rèn)為需要進(jìn)行一些額外的微調(diào)。“在第一次嘗試時,最初的U-Net不知道如何生成醫(yī)學(xué)圖像,”Chambon報告說。“但通過一些額外的訓(xùn)練,我們能夠得到一些有用的東西。”</p>
<p> </p>
<p><span class="h1"><strong>一瞥未來</strong></span></p>
<p><br />在使用定量質(zhì)量指標(biāo)和放射科醫(yī)生驅(qū)動的定性評估對提示進(jìn)行了實(shí)驗(yàn),并對他們的努力進(jìn)行了基準(zhǔn)測試后,學(xué)者們發(fā)現(xiàn),他們表現(xiàn)最好的模型可以在合成放射科圖像上插入一個看起來很真實(shí)的異常,同時在深度學(xué)習(xí)模型上保持95%的準(zhǔn)確率,該模型經(jīng)過訓(xùn)練,可以根據(jù)異常對圖像進(jìn)行分類。</p>
<p> </p>
<p>在后續(xù)工作中,Chambon和Bluethgen加大了培訓(xùn)力度,使用了數(shù)萬張胸部x光片和相應(yīng)的報告。最終的模型(名為倫琴,是倫琴和Generator的組合)于11月23日宣布,它可以創(chuàng)建更高保真度和更多多樣性的CXR圖像,并通過自然語言文本提示對圖像特征(如發(fā)現(xiàn)的大小和側(cè)邊性)提供更細(xì)粒度的控制。(預(yù)印本在這里。)</p>
<p> </p>
<p>雖然這項(xiàng)工作建立在以前的研究基礎(chǔ)上,但它是第一個著眼于胸部成像的潛在擴(kuò)散模型的同類工作,也是第一個探索用于生成醫(yī)學(xué)圖像的新的穩(wěn)定擴(kuò)散模型的工作。不可否認(rèn)的是,當(dāng)團(tuán)隊(duì)反思這種方法時,出現(xiàn)了一些局限性:</p>
<p> </p>
<p>測量生成圖像的臨床準(zhǔn)確性是困難的,因?yàn)闃?biāo)準(zhǔn)指標(biāo)不能捕捉圖像的有用性,所以研究人員增加了一名訓(xùn)練有素的放射科醫(yī)生進(jìn)行定性評估。</p>
<p><br />他們發(fā)現(xiàn)經(jīng)過微調(diào)的模型生成的圖像缺乏多樣性。這是由于用于調(diào)整和訓(xùn)練U-Net的域的樣本數(shù)量相對較少。</p>
<p><br />最后,用于進(jìn)一步訓(xùn)練U-Net的放射學(xué)用例的文本提示是為研究創(chuàng)建的簡化單詞,而不是逐字逐句地從實(shí)際的放射科醫(yī)生報告中提取。Bluethgen和Chambon指出,未來的模型需要根據(jù)全部或部分的放射學(xué)報告進(jìn)行調(diào)整。</p>
<p><br />此外,即使這種模式有一天能完美地運(yùn)行,也不清楚醫(yī)學(xué)研究人員是否可以合法地使用它。Stable Diffusion的開源許可協(xié)議目前禁止用戶生成用于醫(yī)學(xué)建議或醫(yī)學(xué)結(jié)果解釋的圖像。</p>
<p> </p>
<p><strong><span class="h1">藝術(shù)還是x射線注釋?</span></strong></p>
<p><br />盡管目前的限制,Bluethgen和Chambon說,他們對他們能夠從第一階段的研究中生成的圖像感到驚訝。“輸入一個文本提示,然后以高質(zhì)量圖像的形式返回你所寫的內(nèi)容,這是一項(xiàng)不可思議的發(fā)明——對任何環(huán)境都是如此,”Bluethgen說。“看到肺部x光圖像重建得如此好,真是令人興奮。它們是現(xiàn)實(shí)的,而不是卡通的。”</p>
<p> </p>
<p>下一步,研究團(tuán)隊(duì)計劃探索強(qiáng)大的潛在擴(kuò)散模型如何能夠?qū)W習(xí)更廣泛的異常,開始在一張圖像中結(jié)合不止一種異常,并最終將研究擴(kuò)展到除x射線和不同身體部位之外的其他類型的成像。</p>
<p> </p>
<p>Chambon總結(jié)道:“這方面的工作有很大的潛力。“有了更好的醫(yī)療數(shù)據(jù)集,我們或許能夠了解現(xiàn)代疾病,并以最佳方式治療患者。”</p>
<p> </p>
<p>“將預(yù)訓(xùn)練的視覺語言基礎(chǔ)模型應(yīng)用于醫(yī)學(xué)影像領(lǐng)域背景”于10月發(fā)表在預(yù)印本服務(wù)器ArXiv上。除了Bluethgen和Chambon,放射學(xué)教授Curt Langlotz和HAI的附屬教員,以及放射學(xué)助理教授Akshay Chaudhari建議并共同撰寫了這項(xiàng)研究。</p>
<p>斯坦福人工智能研究所的使命是推進(jìn)人工智能研究、教育、政策和實(shí)踐,以改善人類狀況。學(xué)習(xí)更多的知識。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p>
</blockquote>