21世紀(jì)經(jīng)濟(jì)報(bào)道記者 閆碩 北京報(bào)道
近日,OpenAI推出HealthBench開(kāi)源基準(zhǔn)測(cè)試,用于衡量大語(yǔ)言模型在醫(yī)療健康領(lǐng)域的性能表現(xiàn)與安全可靠性,引發(fā)業(yè)內(nèi)廣泛討論。
根據(jù)官方信息,HealthBench由262位來(lái)自60個(gè)國(guó)家/地區(qū)執(zhí)業(yè)的醫(yī)生共同參與構(gòu)建,整合了5000段真實(shí)的醫(yī)療對(duì)話數(shù)據(jù)。與以前的狹窄基準(zhǔn)不同,HealthBench通過(guò)48562個(gè)獨(dú)特的醫(yī)生編寫(xiě)的評(píng)分標(biāo)準(zhǔn)進(jìn)行有意義的開(kāi)放式評(píng)估,涵蓋多個(gè)健康背景和行為維度。
有研報(bào)分析指出,隨著OpenAI推出HealthBench等醫(yī)療大模型評(píng)估基準(zhǔn)的建立和完善,AI醫(yī)療模型的性能評(píng)估將更加科學(xué)、全面,有助于加速AI技術(shù)在醫(yī)療領(lǐng)域的落地應(yīng)用,為醫(yī)療行業(yè)的智能化升級(jí)提供有力支持,相關(guān)企業(yè)有望迎來(lái)新的發(fā)展機(jī)遇。
另一方面,大模型本身也在加速變革。事實(shí)上,隨著大模型競(jìng)爭(zhēng)的白熱化,競(jìng)爭(zhēng)的焦點(diǎn)也已進(jìn)入全新階段:從早先粗放的參數(shù)體量堆砌競(jìng)賽,轉(zhuǎn)變?yōu)槟P托蕛?yōu)化與單位算力下的性能提升。
IQVIA艾昆緯戰(zhàn)略規(guī)劃副總監(jiān)Barrett Li向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,隨著大模型的不斷進(jìn)化,以及模型優(yōu)化方法的不斷提升,已經(jīng)為AI在要求更特殊的專業(yè)場(chǎng)景中的更廣泛應(yīng)用拓展了可能性,尤其是對(duì)于醫(yī)藥行業(yè)的AI應(yīng)用來(lái)說(shuō),已顯現(xiàn)三大趨勢(shì):模型即產(chǎn)品、本地與端側(cè)部署、研發(fā)端AI應(yīng)用的快速拓展。
改善人類健康將成為通用人工智能(AGI)的決定性影響之一。如果能夠得到有效開(kāi)發(fā)和部署,大語(yǔ)言模型有望拓展健康信息的獲取渠道,支持臨床醫(yī)生提供高質(zhì)量醫(yī)療服務(wù),并幫助人們維護(hù)自身健康。而評(píng)估對(duì)于理解模型在醫(yī)療場(chǎng)景中的表現(xiàn)至關(guān)重要。
OpenAI認(rèn)為,現(xiàn)有評(píng)估仍然存在一些問(wèn)題,首先,未反映真實(shí)場(chǎng)景,脫離了實(shí)際醫(yī)療互動(dòng)的復(fù)雜性,如僅采用標(biāo)準(zhǔn)化測(cè)試或有限臨床問(wèn)題。其次,缺乏專家醫(yī)學(xué)驗(yàn)證,評(píng)分標(biāo)準(zhǔn)未經(jīng)過(guò)醫(yī)療專家嚴(yán)格審核,難以體現(xiàn)專業(yè)醫(yī)療判斷。此外,也并未預(yù)留改進(jìn)空間,最先進(jìn)模型已接近“天花板”得分,無(wú)法激勵(lì)持續(xù)優(yōu)化。
也因此,在過(guò)去的一年里,OpenAI與60個(gè)國(guó)家的262名醫(yī)生合作構(gòu)建了HealthBench,包括5000個(gè)真實(shí)的醫(yī)療對(duì)話數(shù)據(jù)。HealthBench 的測(cè)試樣本被分為7個(gè)主題和5個(gè)評(píng)估維度。其中,7個(gè)主題包括緊急轉(zhuǎn)診、專業(yè)溝通定制、健康數(shù)據(jù)任務(wù)等方面,5個(gè)評(píng)估緯度則包含準(zhǔn)確性、溝通質(zhì)量、情境理解等方面。
在HealthBench的基礎(chǔ)上,OpenAI還推出了兩個(gè)特別版本:HealthBench Consensus(共識(shí)版)和HealthBench Hard(困難版)。前者包含34個(gè)經(jīng)醫(yī)生共識(shí)驗(yàn)證的、對(duì)模型行為表現(xiàn)尤為關(guān)鍵的評(píng)估維度;后者則設(shè)置了更高難度的評(píng)估場(chǎng)景,目前最高得分僅為o3模型的32%,主要被用于挑戰(zhàn)模型在復(fù)雜醫(yī)療情境中的極限表現(xiàn)。
對(duì)于HealthBench的可信度,OpenAI開(kāi)展了HealthBench Consensus(共識(shí)版)的元評(píng)估,即將模型的打分結(jié)果與醫(yī)生人工打分進(jìn)行對(duì)比。結(jié)果表明,7個(gè)評(píng)估領(lǐng)域中的6個(gè)領(lǐng)域,模型打分結(jié)果與醫(yī)生評(píng)分的中位數(shù)水平高度一致。
有券商分析師向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,在醫(yī)療等垂直領(lǐng)域,準(zhǔn)確性和實(shí)際場(chǎng)景的相關(guān)性比“流暢對(duì)話”更為關(guān)鍵,HealthBench不同于過(guò)去大多關(guān)注通用大語(yǔ)言模型表現(xiàn)的基準(zhǔn),而是聚焦醫(yī)療垂直領(lǐng)域,為醫(yī)療領(lǐng)域的AI應(yīng)用提供更為專業(yè)的評(píng)估工具,同時(shí)也將推動(dòng)大模型領(lǐng)域建立專業(yè)的AI評(píng)估標(biāo)準(zhǔn)。
值得一提的是,在HealthBench的測(cè)評(píng)中可以發(fā)現(xiàn),大模型在醫(yī)療領(lǐng)域的應(yīng)用正迅速發(fā)展。比如,2023年推出的GPT-3.5Turbo得分為16%,而2024年5月推出的GPT-4o得分已達(dá)到32%,2024年12月推出的o3模型得分更是達(dá)到60%。另外,較小規(guī)模的模型尤其進(jìn)步顯著,GPT-4.1 nano的表現(xiàn)超過(guò)GPT-4o,且成本僅為GPT-4o的1/25。
根據(jù)世界經(jīng)濟(jì)論壇發(fā)布的《人工智能驅(qū)動(dòng)健康的未來(lái):引領(lǐng)潮流》報(bào)告,人工智能是醫(yī)療保健的主要變革力量,預(yù)計(jì)2024年—2032年,AI醫(yī)療市場(chǎng)將以每年43%的速度增長(zhǎng),市場(chǎng)規(guī)模有望達(dá)到4910億美元。
其中,AI在醫(yī)療服務(wù)中的應(yīng)用前景廣闊。中信建投證券分析指出,AI可以擴(kuò)展醫(yī)療服務(wù)可及性,可應(yīng)用于診斷前、診治及診斷后階段,解決當(dāng)前醫(yī)院系統(tǒng)醫(yī)療人員短缺和缺乏有效分流等問(wèn)題,以少量資源實(shí)現(xiàn)高效率。此外,AI輔助醫(yī)生診療未來(lái)有望降低誤診率的同時(shí),在部分疑難雜癥診療方面也有望發(fā)揮協(xié)同作用。
也因此,不僅評(píng)估工具在發(fā)生變革,大模型本身也在持續(xù)優(yōu)化。當(dāng)前,AI在醫(yī)療領(lǐng)域的應(yīng)用歷經(jīng)了從規(guī)則驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)、從單一任務(wù)優(yōu)化到多模態(tài)協(xié)同的演變,已進(jìn)入到多模態(tài)融合階段。
浙商證券分析指出,大模型的多模態(tài)能力解決了早期AI醫(yī)療存在的信息割裂和數(shù)據(jù)孤島等問(wèn)題,大模型通過(guò)“預(yù)訓(xùn)練+微調(diào)”架構(gòu),用統(tǒng)一參數(shù)體系處理多模態(tài)醫(yī)療數(shù)據(jù)。在臨床應(yīng)用中,借助多模態(tài)技術(shù),AI可以實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的理解和動(dòng)態(tài)時(shí)序建模,使得AI診療與醫(yī)生的診療水平更加接近。
需要指出的是,由于萬(wàn)億級(jí)參數(shù)模型高昂的訓(xùn)練成本與當(dāng)下較低的投資回報(bào)比,疊加通用參數(shù)的堆砌對(duì)專業(yè)場(chǎng)景下的模型效率提升遇到了瓶頸,大模型競(jìng)爭(zhēng)的焦點(diǎn)已從早先粗放的參數(shù)體量堆砌競(jìng)賽,轉(zhuǎn)向模型效率優(yōu)化與單位算力下的性能提升。
在應(yīng)用方面,Barrett Li向記者總結(jié)道,隨著大模型的不斷進(jìn)化,目前對(duì)于醫(yī)藥行業(yè)的AI應(yīng)用來(lái)說(shuō),幾大趨勢(shì)已經(jīng)顯現(xiàn):
首先,模型即產(chǎn)品。相比通用大模型在其他行業(yè)中相對(duì)較低的應(yīng)用門(mén)檻,醫(yī)藥行業(yè)高度專業(yè)性的場(chǎng)景,對(duì)于模型的適配性有著更高的要求。而隨著模型訓(xùn)練與針對(duì)特定知識(shí)庫(kù)優(yōu)化的技術(shù)與應(yīng)用逐漸推廣,大模型廠商未來(lái)預(yù)計(jì)會(huì)逐步關(guān)閉對(duì)外的API接口,轉(zhuǎn)而將專業(yè)化后的模型本身作為產(chǎn)品直接提供給企業(yè)用戶使用,顛覆現(xiàn)有的套殼應(yīng)用層。而現(xiàn)有的專業(yè)AI軟件,也必須逐步增強(qiáng)其底層模型訓(xùn)練的能力以應(yīng)對(duì)這一挑戰(zhàn)。在可見(jiàn)的未來(lái),將會(huì)有更多直接針對(duì)醫(yī)藥行業(yè)訓(xùn)練的模型被廣泛應(yīng)用。
其次,本地與端側(cè)部署。針對(duì)特定場(chǎng)景而訓(xùn)練優(yōu)化的專業(yè)模型,可以在滿足性能要求的前提下,減少對(duì)硬件方面提出過(guò)高的要求。因此在成本可控性、分析可溯源、數(shù)據(jù)安全、反饋延遲等要求更高的場(chǎng)景下,專業(yè)中小模型的本地部署會(huì)提供極大的賦能。
“此外,研發(fā)端AI應(yīng)用也在快速拓展。出于高度專業(yè)性、數(shù)據(jù)安全、隱私合規(guī)等因素,相比通用大模型在商業(yè)化階段的快速發(fā)展,醫(yī)藥行業(yè)企業(yè)尚未在研發(fā)階段感受到AI所帶來(lái)的巨大轉(zhuǎn)變。而隨著特定場(chǎng)景專業(yè)模型訓(xùn)練的普及,研發(fā)階段AI應(yīng)用的壁壘未來(lái)也有望被逐一消解。”Barrett Li說(shuō)道。
本文鏈接:http://jphkf.cn/news-7-17974-0.htmlAI醫(yī)療進(jìn)入精準(zhǔn)化“深水區(qū)” :OpenAI醫(yī)療評(píng)估基準(zhǔn)落地、大模型加速變革|AI醫(yī)療浪潮?
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇:CXO企業(yè)一季報(bào):5家營(yíng)收破10億元,8家虧損,國(guó)際化與創(chuàng)新賽道或成破局關(guān)鍵
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕