阻礙醫(yī)院AI正常調(diào)用的環(huán)節(jié)非常多。PACS系統(tǒng)接口、醫(yī)院電腦等軟硬件的兼容能力、工作站與電子病歷數(shù)據(jù)傳輸限制等因素,都有可能降低AI在實(shí)際使用中的推理速度,甚至出現(xiàn)多AI系統(tǒng)不兼容的問(wèn)題。
近日,NVIDIA將TensorRT、Triton兩個(gè)工具用之于醫(yī)療AI的部署環(huán)節(jié)。這位人工智能計(jì)算的引領(lǐng)者曾助力大量醫(yī)療AI企完成AI模型訓(xùn)練與構(gòu)建,現(xiàn)又繼續(xù)向AI落地的下游延伸,嘗試解決醫(yī)院各科室與AI企業(yè)之間的部署糾纏。
一方面,新的工具將幫助醫(yī)療AI企業(yè)把握充分利用GPU硬件資源、充分發(fā)揮GPU的算力進(jìn)行AI推理;高效部署、優(yōu)化計(jì)算資源實(shí)用;安全、高效調(diào)度GPU等細(xì)節(jié),加速院端AI推理過(guò)程,提高醫(yī)療AI的實(shí)際使用體驗(yàn)。
另一方面,在當(dāng)前以單病種AI為主流的時(shí)代下,許多科室通常會(huì)向某AI公司采購(gòu)多種AI,并在診斷時(shí)進(jìn)行多個(gè)AI間切換。在這種情況下,NIVIDA能夠?yàn)锳I公司提供一種通用的支持框架,幫助企業(yè)在各種環(huán)境下部署多個(gè)人工智能。
當(dāng)醫(yī)療人工智能進(jìn)入精細(xì)化競(jìng)爭(zhēng)時(shí)代,NVIDIA的新工具或?qū)椭t(yī)療AI企業(yè)重構(gòu)競(jìng)爭(zhēng)力。
新一代TensorRT 8入駐醫(yī)療,
AI推理效率數(shù)倍提升
推理(Inference)意為把深度學(xué)習(xí)從影像AI訓(xùn)練中學(xué)習(xí)到的診斷能力應(yīng)用到實(shí)際中去,是醫(yī)療人工智能模擬醫(yī)生進(jìn)行輔助診斷的關(guān)鍵。
對(duì)于醫(yī)學(xué)這樣一門(mén)嚴(yán)肅的學(xué)科,AI診斷的速度與精度必須滿(mǎn)足高要求。這意味著,醫(yī)學(xué)AI的模型及推理過(guò)程總是非常復(fù)雜,以至于我們很難窺探AI推理的過(guò)程。
為了使醫(yī)療AI的推理變?yōu)楦装芽?,NIVIDA將TensorRT的適用范圍拓展至醫(yī)療場(chǎng)景。作為一種高性能深度學(xué)習(xí)推理(Inference)的優(yōu)化器和運(yùn)行引擎,TensorRT以TensorFlow框架訓(xùn)練得到的模型作為輸入,為CUDA GPU生成優(yōu)化了的模型運(yùn)行時(shí)間,減少推理的時(shí)間來(lái)降低應(yīng)用程序的延遲,減少計(jì)算和內(nèi)存訪(fǎng)問(wèn),并利用稀疏張量核心提供額外的性能提升。
此外,TensorRT可以將研發(fā)人員訓(xùn)練好的模型分解再進(jìn)行融合,融合后的模型具有高度的集合度。例如,將卷積層和激活層進(jìn)行融合后,計(jì)算速度可獲得顯著提升。
2021年7月,最新一代TensorRT 8.0版本將上述的優(yōu)勢(shì)進(jìn)行了極致提升。
TensorRT 8.0使用量化感知訓(xùn)練,實(shí)現(xiàn)與 FP32 相當(dāng)?shù)木群?INT8 精度,相比7.0版本運(yùn)行速度和精準(zhǔn)度都提升了1倍。此外,TensorRT 8.0加速支持大量推理模型,其中基于BERT模型的推理速度提高 2 倍。
由于采用了稀疏性技術(shù),TensorRT 8.0可顯著提升 Ampere GPU性能,將 Ampere GPU 的吞吐量提高多達(dá) 50%,加速2:4細(xì)粒度結(jié)構(gòu)。數(shù)據(jù)顯示,通過(guò)消除神經(jīng)網(wǎng)絡(luò)中不必要的計(jì)算,用戶(hù)可以獲得超過(guò)30%的性能增長(zhǎng)。
更為高效推理能夠解決現(xiàn)階段部署的眾多問(wèn)題。譬如,由于醫(yī)療信息化系統(tǒng)對(duì)于醫(yī)院計(jì)算機(jī)系統(tǒng)的限制,許多醫(yī)院的軟件系統(tǒng)版本相對(duì)滯后,難以支撐醫(yī)療人工智能對(duì)于軟硬件的要求,TensorRT 8.0的介入則能更為充分的運(yùn)用有限的計(jì)算資源,有效降低AI部署成本。
此外,高效推理、低延遲能夠優(yōu)化線(xiàn)上流程的流暢性。無(wú)紙化時(shí)代,TensorRT 8.0將極大提升醫(yī)生的AI使用體驗(yàn)。
抽絲剝繭,Triton支持下,
GPU實(shí)現(xiàn)極致利用
TensorRT 8.0的入駐優(yōu)化了醫(yī)療AI的推理,但在實(shí)際之中,NVIDIA還需解決同一環(huán)境下多種類(lèi)AI部署這一關(guān)鍵問(wèn)題。
NVIDIA Triton推理服務(wù)器是一款開(kāi)源軟件,提供單一標(biāo)準(zhǔn)化推理平臺(tái),可支持在多框架模型、CPU 和 GPU 以及不同部署環(huán)境(例如數(shù)據(jù)中心、云、嵌入式設(shè)備和虛擬化環(huán)境)中運(yùn)行推理。
對(duì)于所有推理模式,Triton都可以簡(jiǎn)化模型在任一框架中以及任何 GPU或CPU上的運(yùn)行方式,從而在生產(chǎn)環(huán)境中使用 AI。結(jié)合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8,Triton可以進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)的推理效率,在不損失精度的前提下減少計(jì)算和存儲(chǔ)成本,實(shí)現(xiàn)高效推理。
目前,Triton支持多模型ensemble,以及TensorFlow、PyTorch、ONNX等多種深度學(xué)習(xí)模型框架,可以很好的支持多模型聯(lián)合推理的場(chǎng)景,構(gòu)建起視頻、圖片、語(yǔ)音、文本整個(gè)推理服務(wù)過(guò)程,大大降低多個(gè)模型服務(wù)的開(kāi)發(fā)和維護(hù)成本。
在金融行業(yè),螞蟻集團(tuán)借助NVIDIA Triton 推理服務(wù)器,配合T4GPU、DALI的圖像預(yù)處理能力,將多模型推理性能整體提升2.4倍,延遲降低20%,既滿(mǎn)足了業(yè)務(wù)的低延時(shí)需求,成本也降低了50%。這意味著,在多模態(tài)業(yè)務(wù)場(chǎng)景中,螞蟻集團(tuán)以更低的成本構(gòu)建了高性能的推理服務(wù),同時(shí)以更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時(shí)間,優(yōu)化了用戶(hù)體驗(yàn)。
同樣的成功也有可能復(fù)制于醫(yī)療之中。一方面,Triton支持下,醫(yī)學(xué)AI企業(yè)的研究人員可以自由地為他們的項(xiàng)目選擇合適的框架,最大化利用GPU,幫助其盡快進(jìn)行推理型;另一方面,Triton的多環(huán)境支持功能及安全保障能夠保證醫(yī)療AI在任何一家醫(yī)院順利部署,幫助部署人員更為輕松地滿(mǎn)足不同醫(yī)院對(duì)于不同部署環(huán)境的偏好。
解鎖TensorRT和Triton
在醫(yī)療影像診斷中的應(yīng)用
為了進(jìn)一步幫助大家理解TensorRT和Triton在醫(yī)療影像診斷中的應(yīng)用,英偉達(dá)將在10月13日14:00-15:20召開(kāi)網(wǎng)絡(luò)研討會(huì)《解鎖TensorRT和Triton在醫(yī)療影像診斷中的應(yīng)用》,詳解醫(yī)療中的TensorRT和Triton。
講解實(shí)際真實(shí)應(yīng)用環(huán)境下的模型部署和調(diào)度。