էջի_գեյներ

նորություններ

Լայն լեզվական մոդելը (LLM) կարող է գրել համոզիչ հոդվածներ՝ հիմնված արագ բառերի վրա, հանձնել մասնագիտական ​​​​որակավորման քննություններ և գրել համբերատար և համակրելի տեղեկատվություն: Այնուամենայնիվ, LLM-ում հորինվածքի, փխրունության և անճշտ փաստերի հայտնի ռիսկերից բացի, աստիճանաբար ուշադրության կենտրոնում են հայտնվում նաև այլ չլուծված խնդիրներ, ինչպիսիք են արհեստական ​​​​բանականության մոդելները, որոնք իրենց ստեղծման և օգտագործման մեջ պարունակում են պոտենցիալ խտրական «մարդկային արժեքներ», և նույնիսկ եթե LLM-ը այլևս չի հորինում բովանդակություն և չի վերացնում ակնհայտորեն վնասակար արդյունքը, «LLM արժեքները» դեռ կարող են շեղվել մարդկային արժեքներից:

 

Անթիվ օրինակներ ցույց են տալիս, թե ինչպես են արհեստական ​​բանականության մոդելների մարզման համար օգտագործվող տվյալները կոդավորում անհատական ​​և սոցիալական արժեքները, որոնք կարող են ամրապնդվել մոդելի ներսում: Այս օրինակները ներառում են կիրառությունների լայն շրջանակ, ներառյալ կրծքավանդակի ռենտգենյան պատկերների ավտոմատ մեկնաբանությունը, մաշկի հիվանդությունների դասակարգումը և բժշկական ռեսուրսների բաշխման վերաբերյալ ալգորիթմական որոշումների կայացումը: Ինչպես նշվել է մեր ամսագրի վերջերս հրապարակված հոդվածում, կողմնակալ մարզման տվյալները կարող են ուժեղացնել և բացահայտել հասարակությունում առկա արժեքներն ու կողմնակալությունները: Ընդհակառակը, հետազոտությունները նաև ցույց են տվել, որ արհեստական ​​բանականությունը կարող է օգտագործվել կողմնակալությունը նվազեցնելու համար: Օրինակ, հետազոտողները խորը ուսուցման մոդելներ են կիրառել ծնկի ռենտգենյան ֆիլմերի վրա և հայտնաբերել են գործոններ, որոնք բաց են թողնվել ստանդարտ ծանրության ցուցանիշների կողմից (գնահատվել են ռադիոլոգների կողմից) ծնկի հոդի ներսում, այդպիսով նվազեցնելով սևամորթ և սպիտակամորթ հիվանդների միջև անհասկանալի ցավի տարբերությունները:

Չնայած ավելի ու ավելի շատ մարդիկ են գիտակցում արհեստական ​​բանականության մոդելների կողմնակալությունը, հատկապես մարզման տվյալների առումով, մարդկային արժեքների շատ այլ մուտքի կետերին բավարար ուշադրություն չի դարձվում արհեստական ​​բանականության մոդելների մշակման և տեղակայման գործընթացում: Բժշկական արհեստական ​​բանականությունը վերջերս տպավորիչ արդյունքների է հասել, բայց մեծ մասամբ այն բացահայտորեն չի հաշվի առել մարդկային արժեքները և դրանց փոխազդեցությունը ռիսկի գնահատման և հավանականային դատողության հետ, և ոչ էլ մոդելավորվել է:

 

Այս վերացական հասկացությունները կոնկրետացնելու համար պատկերացրեք, որ դուք էնդոկրինոլոգ եք, ով պարտավոր է նշանակել ռեկոմբինանտ մարդկային աճի հորմոն 8-ամյա տղայի համար, որի տարիքը 3-րդ պերսենտիլից ցածր է: Տղայի խթանված մարդկային աճի հորմոնի մակարդակը 2 նգ/մլ-ից ցածր է (հղման արժեքը՝ >10 նգ/մլ, ԱՄՆ-ից դուրս շատ երկրների համար հղման արժեքը >7 նգ/մլ է), և նրա մարդկային աճի հորմոնը կոդավորող գենը հայտնաբերել է հազվագյուտ ինակտիվացման մուտացիաներ: Մենք կարծում ենք, որ մարդու աճի հորմոնային թերապիայի կիրառումը ակնհայտ է և անվիճելի այս կլինիկական պայմաններում:

Մարդու աճի հորմոնալ թերապիայի կիրառումը հետևյալ դեպքերում կարող է հակասություններ առաջացնել. 14-ամյա տղայի հասակը միշտ եղել է իր հասակակիցների 10-րդ պերսենտիլում, իսկ խթանումից հետո մարդու աճի հորմոնի գագաթնակետը 8 նգ/մլ է: Հայտնի չեն ֆունկցիոնալ մուտացիաներ, որոնք կարող են ազդել հասակի վրա, ինչպես նաև կարճահասակության այլ հայտնի պատճառներ, և նրա ոսկրային տարիքը 15 տարեկան է (այսինքն՝ զարգացման ուշացում չկա): Հակասության միայն մի մասն է պայմանավորված մասնագետների կողմից որոշված ​​շեմային արժեքների տարբերություններով՝ հիմնված աճի հորմոնի մեկուսացված անբավարարության ախտորոշման համար օգտագործվող մարդու աճի հորմոնի մակարդակների վերաբերյալ տասնյակ ուսումնասիրությունների վրա: Առնվազն նույնքան հակասություն է առաջանում մարդու աճի հորմոնալ թերապիայի օգտագործման ռիսկի և օգուտի հավասարակշռությունից՝ հիվանդների, հիվանդների ծնողների, առողջապահության մասնագետների, դեղագործական ընկերությունների և վճարողների տեսանկյունից: Մանկական էնդոկրինոլոգները կարող են կշռադատել աճի հորմոնի ամենօրյա ներարկումների հազվագյուտ անբարենպաստ ազդեցությունները 2 տարվա ընթացքում՝ հաշվի առնելով մեծահասակների մարմնի չափի աճի բացակայության կամ միայն նվազագույն աճի հավանականությունը՝ համեմատած ներկայիսի հետ: Տղաները կարող են հավատալ, որ նույնիսկ եթե իրենց հասակը կարող է աճել ընդամենը 2 սմ-ով, արժե ներարկել աճի հորմոն, բայց վճարողը և դեղագործական ընկերությունը կարող են տարբեր տեսակետներ ունենալ:

 

Որպես օրինակ մենք վերցնում ենք կրեատինինի վրա հիմնված eGFR-ը, որը լայնորեն օգտագործվող երիկամային ֆունկցիայի ցուցանիշ է քրոնիկ երիկամային հիվանդության ախտորոշման և փուլավորման, երիկամի փոխպատվաստման կամ դոնորության պայմանների սահմանման, ինչպես նաև շատ դեղատոմսային դեղամիջոցների համար նվազեցման չափանիշների և հակացուցումների որոշման համար: EGFR-ը պարզ ռեգրեսիոն հավասարում է, որն օգտագործվում է չափված գլոմերուլային ֆիլտրացիայի արագությունը (mGFR) գնահատելու համար, որը հղման ստանդարտ է, բայց գնահատման մեթոդը համեմատաբար դժվար է: Այս ռեգրեսիոն հավասարումը չի կարող համարվել արհեստական ​​բանականության մոդել, բայց այն պատկերում է մարդկային արժեքների և հավանականային դատողությունների վերաբերյալ բազմաթիվ սկզբունքներ:

eGFR-ում մարդկային արժեքների մուտքագրման առաջին կետը համապատասխանեցման հավասարումների համար տվյալների ընտրությունն է: eGFR բանաձևը մշակելու համար օգտագործված սկզբնական հերթը հիմնականում կազմված է սևամորթ և սպիտակամորթ մասնակիցներից, և դրա կիրառելիությունը շատ այլ էթնիկ խմբերի համար պարզ չէ: Այս բանաձևում մարդկային արժեքների հետագա մուտքագրման կետերն են՝ mGFR ճշգրտության ընտրությունը որպես երիկամների ֆունկցիայի գնահատման հիմնական նպատակ, ճշգրտության ընդունելի մակարդակը, ճշգրտությունը չափելու եղանակը և eGFR-ի օգտագործումը որպես կլինիկական որոշումների կայացման շեմ (օրինակ՝ երիկամի փոխպատվաստման պայմանների որոշում կամ դեղորայքի նշանակում): Վերջապես, մուտքային մոդելի բովանդակությունը ընտրելիս մարդկային արժեքները նույնպես կմտնեն այս բանաձև:

Օրինակ, մինչև 2021 թվականը ուղեցույցները առաջարկում էին eGFR բանաձևում կրեատինինի մակարդակը ճշգրտել՝ հիմնվելով հիվանդի տարիքի, սեռի և ռասայի վրա (դասակարգվում են միայն որպես սևամորթ կամ ոչ սևամորթ անհատներ): Ռասայի վրա հիմնված ճշգրտումը նպատակ ունի բարելավել mGFR բանաձևի ճշգրտությունը, սակայն 2020 թվականին խոշոր հիվանդանոցները սկսեցին կասկածի տակ դնել ռասայի վրա հիմնված eGFR-ի օգտագործումը՝ նշելով այնպիսի պատճառներ, ինչպիսիք են հիվանդի փոխպատվաստման համար իրավասության հետաձգումը և ռասայի որպես կենսաբանական հասկացության կոնկրետացումը: Հետազոտությունները ցույց են տվել, որ eGFR մոդելների ռասայի տեսանկյունից նախագծումը կարող է խորը և տարբեր ազդեցություն ունենալ ճշգրտության և կլինիկական արդյունքների վրա. Հետևաբար, ճշգրտության վրա ընտրողաբար կենտրոնանալը կամ արդյունքների մի մասի վրա կենտրոնանալը արտացոլում է արժեքային դատողություններ և կարող է քողարկել թափանցիկ որոշումների կայացումը: Վերջապես, ազգային աշխատանքային խումբը առաջարկեց նոր բանաձև, որը վերափոխվեց առանց ռասան հաշվի առնելու՝ կատարողականի և արդարության հարցերը հավասարակշռելու համար: Այս օրինակը ցույց է տալիս, որ նույնիսկ պարզ կլինիկական բանաձևն ունի մարդկային արժեքների բազմաթիվ մուտքի կետեր:

Վիրտուալ իրականության բժիշկ հիվանդանոցի վիրահատարանում: Վիրաբույժը վերլուծում է հիվանդի սրտի թեստի արդյունքը և մարդու անատոմիան տեխնոլոգիական թվային ֆուտուրիստական ​​վիրտուալ ինտերֆեյսի, թվային հոլոգրաֆիկ, գիտության և բժշկության մեջ նորարարական հայեցակարգի վրա:

Համեմատած միայն փոքր թվով կանխատեսող ցուցանիշներ ունեցող կլինիկական բանաձևերի հետ, LLM-ը կարող է բաղկացած լինել միլիարդավորից մինչև հարյուրավոր միլիարդավոր պարամետրերից (մոդելի կշիռներ) կամ ավելի, ինչը դժվարացնում է դրա հասկացողությունը: «Դժվար հասկանալի» ասելու պատճառն այն է, որ LLM-ների մեծ մասում հարցերի միջոցով պատասխաններ ստանալու ճշգրիտ եղանակը հնարավոր չէ քարտեզագրել: GPT-4-ի պարամետրերի քանակը դեռևս չի հայտարարվել. դրա նախորդը՝ GPT-3-ը, ուներ 175 միլիարդ պարամետր: Ավելի շատ պարամետրեր պարտադիր չէ, որ նշանակեն ավելի ուժեղ հնարավորություններ, քանի որ ավելի փոքր մոդելները, որոնք ներառում են ավելի շատ հաշվողական ցիկլեր (օրինակ՝ LLaMA [Large Language Model Meta AI] մոդելային շարքը) կամ մարդկային հետադարձ կապի հիման վրա մանրակրկիտ կարգավորված մոդելները ավելի լավ կաշխատեն, քան ավելի մեծ մոդելները: Օրինակ, մարդկային գնահատողների կարծիքով, InstrumentGPT մոդելը (մոդել՝ 1.3 միլիարդ պարամետրերով) գերազանցում է GPT-3-ին մոդելի ելքային արդյունքները օպտիմալացնելու հարցում:

GPT-4-ի վերապատրաստման կոնկրետ մանրամասները դեռևս չեն բացահայտվել, սակայն նախորդ սերնդի մոդելների, այդ թվում՝ GPT-3-ի, InstrumentGPT-ի և շատ այլ բաց կոդով LLM-ների մանրամասները բացահայտվել են: Այսօր արհեստական ​​բանականության շատ մոդելներ գալիս են մոդելային քարտերով. GPT-4-ի գնահատման և անվտանգության տվյալները հրապարակվել են OpenAI մոդելների ստեղծման ընկերության կողմից տրամադրված նմանատիպ համակարգային քարտում: LLM-ի ստեղծումը կարելի է մոտավորապես բաժանել երկու փուլի՝ նախնական նախնական վերապատրաստման փուլ և նուրբ կարգավորման փուլ, որը նպատակ ունի օպտիմալացնել մոդելի ելքային արդյունքները: Նախնական վերապատրաստման փուլում մոդելին տրամադրվում է մեծ կորպուս, որը ներառում է բնօրինակ ինտերնետային տեքստը՝ այն մարզելու համար՝ հաջորդ բառը կանխատեսելու համար: Այս թվացյալ պարզ «ավտոմատ լրացման» գործընթացը ստեղծում է հզոր հիմնարար մոդել, բայց այն կարող է նաև հանգեցնել վնասակար վարքագծի: Մարդկային արժեքները կմտնեն նախնական վերապատրաստման փուլ, ներառյալ GPT-4-ի համար նախնական վերապատրաստման տվյալների ընտրությունը և նախնական վերապատրաստման տվյալներից անպատշաճ բովանդակությունը, ինչպիսին է պոռնոգրաֆիկ բովանդակությունը, հեռացնելու որոշումը: Այս ջանքերին չնայած, հիմնական մոդելը կարող է դեռևս ո՛չ օգտակար լինել, ո՛չ էլ ունակ լինել պարունակելու վնասակար ելքային արդյունքներ: Հաջորդ՝ նուրբ կարգավորման փուլում կհայտնվեն բազմաթիվ օգտակար և անվնաս վարքագծեր:

Նուրբ կարգավորման փուլում լեզվական մոդելների վարքագիծը հաճախ խորապես փոխվում է վերահսկվող նուրբ կարգավորման և մարդկային հետադարձ կապի վրա հիմնված ամրապնդող ուսուցման միջոցով: Վերահսկվող նուրբ կարգավորման փուլում վարձված կապալառու անձնակազմը կգրի պատասխանների օրինակներ արագ բառերի համար և անմիջապես կուսուցանի մոդելը: Մարդկային հետադարձ կապի վրա հիմնված ամրապնդող ուսուցման փուլում մարդկային գնահատողները կդասավորեն մոդելի ելքային արդյունքները որպես մուտքային բովանդակության օրինակներ: Այնուհետև կիրառեք վերը նշված համեմատական ​​արդյունքները՝ «պարգևատրման մոդելը» սովորելու և ամրապնդող ուսուցման միջոցով մոդելը հետագայում բարելավելու համար: Մարդկային ցածր մակարդակի զարմանալի ներգրավվածությունը կարող է ճշգրտել այս մեծ մոդելները: Օրինակ, InstrumentGPT մոդելը օգտագործել է մոտ 40 կապալառու անձնակազմից բաղկացած թիմ, որը հավաքագրվել է քրաուդսորսինգի կայքերից և անցել է ստուգման թեստ, որի նպատակն էր ընտրել մեկնաբանողների խումբ, որոնք զգայուն են տարբեր բնակչության խմբերի նախասիրությունների նկատմամբ:

Ինչպես ցույց են տալիս այս երկու ծայրահեղ օրինակները, մասնավորապես՝ պարզ կլինիկական բանաձևը [eGFR] և հզոր LLM-ը [GPT-4], մարդկային որոշումների կայացումը և մարդկային արժեքները անփոխարինելի դեր են խաղում մոդելի ելքային արդյունքների ձևավորման գործում: Կարո՞ղ են այս արհեստական ​​բանականության մոդելները արտացոլել հիվանդների և բժիշկների բազմազան արժեքները: Ինչպե՞ս հրապարակայնորեն ուղղորդել արհեստական ​​բանականության կիրառումը բժշկության մեջ: Ինչպես նշված է ստորև, բժշկական որոշումների վերլուծության վերանայումը կարող է սկզբունքային լուծում տալ այս խնդիրներին:

 

Բժշկական որոշումների վերլուծությունը շատ բժիշկների համար ծանոթ չէ, բայց այն կարող է տարբերակել հավանականային դատողությունները (որոշումների կայացման հետ կապված անորոշ արդյունքների համար, օրինակ՝ նկար 1-ում ներկայացված վիճահարույց կլինիկական սցենարում մարդու աճի հորմոն նշանակել-չկիրառելը) և հաշվի առնելու գործոնները (այդ արդյունքներին կից սուբյեկտիվ արժեքների համար, որոնց արժեքը քանակականացվում է որպես «օգտակարություն», օրինակ՝ տղամարդու հասակի 2 սմ աճի արժեքը), ապահովելով համակարգված լուծումներ բարդ բժշկական որոշումների համար: Որոշումների վերլուծության մեջ բժիշկները նախ պետք է որոշեն յուրաքանչյուր արդյունքի հետ կապված բոլոր հնարավոր որոշումները և հավանականությունները, ապա ներառեն յուրաքանչյուր արդյունքի հետ կապված հիվանդի (կամ մյուս կողմի) օգտակարությունը՝ ամենահարմար տարբերակը ընտրելու համար: Հետևաբար, որոշումների վերլուծության վավերականությունը կախված է նրանից, թե արդյոք արդյունքի կարգավորումը համապարփակ է, ինչպես նաև նրանից, թե արդյոք օգտակարության չափումը և հավանականության գնահատումը ճշգրիտ են: Իդեալականում, այս մոտեցումը օգնում է ապահովել, որ որոշումները հիմնված լինեն ապացույցների վրա և համապատասխանեն հիվանդի նախասիրություններին, այդպիսով նեղացնելով օբյեկտիվ տվյալների և անձնական արժեքների միջև եղած բացը: Այս մեթոդը բժշկական ոլորտում ներդրվել է մի քանի տասնամյակ առաջ և կիրառվել է անհատական ​​հիվանդների որոշումների կայացման և բնակչության առողջության գնահատման համար, օրինակ՝ ընդհանուր բնակչությանը հաստ աղիքի քաղցկեղի սկրինինգի վերաբերյալ առաջարկություններ տրամադրելը:

 

Բժշկական որոշումների վերլուծության մեջ մշակվել են տարբեր մեթոդներ՝ օգտակարությունը ստանալու համար: Ավանդական մեթոդների մեծ մասը ուղղակիորեն արժեք է ստանում անհատ հիվանդներից: Ամենապարզ մեթոդը գնահատման սանդղակի օգտագործումն է, որտեղ հիվանդները գնահատում են որոշակի արդյունքի նկատմամբ իրենց նախընտրության մակարդակը թվային սանդղակով (օրինակ՝ 1-ից 10 գծային սանդղակով), որտեղ առողջության ամենածայրահեղ արդյունքները (օրինակ՝ ամբողջական առողջությունը և մահը) գտնվում են երկու ծայրերում: Ժամանակի փոխանակման մեթոդը մեկ այլ լայնորեն օգտագործվող մեթոդ է: Այս մեթոդում հիվանդները պետք է որոշում կայացնեն, թե որքան առողջ ժամանակ են պատրաստ ծախսել վատ առողջության որոշակի ժամանակահատվածի դիմաց: Սովորական խաղամոլության մեթոդը օգտակարությունը որոշելու մեկ այլ լայնորեն օգտագործվող մեթոդ է: Այս մեթոդում հիվանդներին հարցնում են, թե երկու տարբերակներից որն են նախընտրում. կամ ապրել որոշակի թվով տարիներ նորմալ առողջությամբ՝ որոշակի հավանականությամբ (p) (t), և կրել մահվան ռիսկը՝ 1p հավանականությամբ. կամ համոզվել, որ ապրելու են t տարի՝ խաչաձև առողջական պայմաններում: Հարցրեք հիվանդներին մի քանի անգամ տարբեր p-արժեքներով, մինչև նրանք որևէ տարբերակի նկատմամբ նախընտրություն չցուցաբերեն, որպեսզի օգտակարությունը կարողանա հաշվարկվել հիվանդների պատասխանների հիման վրա:
Բացի անհատական ​​հիվանդների նախասիրությունները պարզելու համար օգտագործվող մեթոդներից, մշակվել են նաև մեթոդներ՝ հիվանդների համար օգտակարություն ստանալու համար: Հատկապես ֆոկուս խմբային քննարկումները (հիվանդներին միասին բերելով՝ քննարկելու կոնկրետ փորձառությունները) կարող են օգնել հասկանալ նրանց տեսակետները: Խմբային օգտակարությունը արդյունավետորեն ամփոփելու համար առաջարկվել են կառուցվածքային խմբային քննարկման տարբեր մեթոդներ:
Գործնականում, օգտակարության ուղղակի ներդրումը կլինիկական ախտորոշման և բուժման գործընթացում շատ ժամանակատար է: Որպես լուծում, հարցման հարցաթերթիկները սովորաբար բաշխվում են պատահականորեն ընտրված բնակչությանը` բնակչության մակարդակով օգտակարության միավորներ ստանալու համար: Որոշ օրինակներից են EuroQol 5-չափանի հարցաթերթիկը, 6-չափանի օգտակարության կշռի կարճ ձևը, Առողջապահական օգտակարության ինդեքսը և քաղցկեղի հատուկ Եվրոպական քաղցկեղի հետազոտման և բուժման կազմակերպության կյանքի որակի հարցաթերթիկ Core 30 գործիքը:


Հրապարակման ժամանակը. Հունիս-01-2024