No kurienes mākslīgais intelekts iegūst informāciju?

Vai esat kādreiz sēdējuši un kasījuši galvu, domājot… no kurienes tas viss īsti nāk? Mākslīgais intelekts taču neuzmanīgi nerokas pa putekļainiem bibliotēkas plauktiem vai neskatās īsfilmas no YouTube. Tomēr kaut kādā veidā tas sniedz atbildes uz visu – sākot no lazanjas receptēm līdz pat melnā cauruma fizikai –, it kā tam iekšā būtu kāds bezdibenis dokumentu skapis. Realitāte ir dīvaināka un varbūt pat intriģējošāka, nekā jūs domājat. Paskatīsimies uz to nedaudz sīkāk (un jā, varbūt pa ceļam kliedēsim pāris mītus).

Vai tā ir burvestība? 🌐

Tā nav burvestība, lai gan dažreiz tā šķiet. Tas, kas notiek zem pārsega, būtībā ir modeļu prognozēšana. Lielie valodu modeļi (LLM) neuzglabā faktus tā, kā jūsu smadzenes turas pie vecmāmiņas cepumu receptes; tā vietā tie ir apmācīti uzminēt nākamo vārdu (marķieri), pamatojoties uz iepriekšējo [2]. Praksē tas nozīmē, ka tie pieķeras attiecībām: kuri vārdi sakrīt kopā, kā parasti veidojas teikumi, kā veselas idejas tiek veidotas kā sastatnes. Tāpēc rezultāts izklausās pareizi, lai gan – pilnīgā godīgumā – tā ir statistiska atdarināšana, nevis izpratne [4].

Tātad, kas īsti padara mākslīgā intelekta ģenerētu informāciju noderīgu? Dažas lietas:

Datu daudzveidība — datu iegūšana no neskaitāmiem avotiem, nevis vienas šauras plūsmas.
Atjauninājumi — bez atsvaidzināšanas cikliem tas ātri noveco.
Filtrēšana — ideālā gadījumā atkritumu notveršana, pirms tie iesūcas (lai gan, būsim reāli, tam tīklam ir caurumi).
Salīdzinoša pārbaude — paļaušanās uz autoritatīviem avotiem (piemēram, NASA, PVO, lielākajām universitātēm), kas ir obligāta prasība lielākajā daļā mākslīgā intelekta pārvaldības rokasgrāmatu [3].

Tomēr dažreiz tas izdomā – pārliecināti. Tās tā sauktās halucinācijas? Pamatā noslīpētas muļķības, kas pasniegtas ar nopietnu sejas izteiksmi [2][3].

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Vai mākslīgais intelekts var paredzēt loterijas skaitļus?
Mītu un faktu izpēte par mākslīgā intelekta loterijas prognozēm.

🔗 Ko nozīmē holistiska pieeja mākslīgajam intelektam?
Izpratne par mākslīgo intelektu, ņemot vērā līdzsvarotus ētikas un ietekmes aspektus.

🔗 Ko Bībele saka par mākslīgo intelektu
Bībeles perspektīvu izpēte par tehnoloģijām un cilvēka radīšanu.

Ātrs salīdzinājums: no kurienes smeļas spēku AI 📊

Ne visi avoti ir vienlīdzīgi, taču katram ir sava loma. Šeit ir īss ieskats.

Avota veids	Kas to izmanto (AI)	Izmaksas/vērtība	Kāpēc tas darbojas (vai nedarbojas...)
Grāmatas un raksti	Lieli valodu modeļi	Nenovērtējams (aptuveni)	Blīvas, strukturētas zināšanas vienkārši ātri noveco.
Tīmekļa vietnes un emuāri	Gandrīz visi mākslīgie intelekti	Bezmaksas (ar troksni)	Mežonīga šķirne; spožuma un absolūtu atkritumu sajaukums.
Akadēmiskie raksti	Pētniecībā ietilpīgas mākslīgās intelekta sistēmas	Dažreiz maksas sienas	Stingrība + ticamība, bet izteikta smagā žargonā.
Lietotāja dati	Personalizētas mākslīgās intelekta ierīces	Ļoti jutīgs ⚠️	Asa piegriezuma stils, bet galvassāpes par privātumu netrūkst.
Reāllaika tīmeklis	Ar meklēšanu saistītie mākslīgie intelekti	Bez maksas (ja tiešsaistē)	Saglabā informāciju svaigu; negatīvais aspekts ir baumu pastiprināšanas risks.

Apmācības datu visums 🌌

Šī ir “bērnības mācīšanās” fāze. Iedomājieties, ka bērnam vienlaikus tiek pasniegti miljoniem pasaku grāmatu, ziņu izgriezumu un Vikipēdijas sludinājumu. Tā izskatās pirmsapmācība. Reālajā pasaulē pakalpojumu sniedzēji apvieno publiski pieejamus datus, licencētus avotus un trenera ģenerētu tekstu [2].

Virsū slāņoti: atlasīti cilvēku piemēri — labas atbildes, sliktas atbildes, pamudinājumi pareizajā virzienā —, pirms pat sākas pastiprinājums [1].

Caurspīdīguma atruna: uzņēmumi neatklāj katru detaļu. Daži drošības pasākumi ir slepeni (intelektuālais īpašums, drošības apsvērumi), tāpēc jūs iegūstat tikai daļēju ieskatu faktiskajā sajaukumā [2].

Reāllaika meklēšana: papildu piedevas 🍒

Daži modeļi tagad var ieskatīties ārpus sava apmācības burbuļa. Tā ir atgūšanas paplašinātā ģenerēšana (RAG)— būtībā datu fragmentu izvilkšana no tiešsaistes indeksa vai dokumentu krātuves un to iekļaušana atbildē [5]. Lieliski piemērots ātri mainīgām lietām, piemēram, ziņu virsrakstiem vai akciju cenām.

Problēma? Internets ir vienlīdz ģeniāls un vienlaikus arī nelegāls. Ja filtri vai izcelsmes pārbaudes ir vājas, pastāv risks, ka atpakaļ iekļūst nevēlami dati — tieši par to brīdina riska ietvari [3].

Bieži sastopams risinājums: uzņēmumi piesaista modeļus savām iekšējām datubāzēm, lai atbildes citētu pašreizējo personāla politiku vai atjauninātu produkta dokumentāciju, nevis to vienkārši pateiktu. Iedomājieties: mazāk "ak vai" momentu, vairāk uzticamu atbilžu.

Precīza regulēšana: mākslīgā intelekta pulēšanas solis 🧪

Neapstrādāti iepriekš apmācīti modeļi ir neveikli. Tāpēc tie tiek precīzi noregulēti:

Mācot viņiem būt izpalīdzīgiem, nekaitīgiem un godīgiem (izmantojot pastiprinājuma mācīšanos no cilvēku atsauksmēm, RLHF) [1].
Nedrošu vai toksisku malu noslīpēšana (izlīdzināšana) [1].
Pielāgojoties tonim — vai tas būtu draudzīgs, formāls vai rotaļīgi sarkastisks.

Tā nav tik daudz dimanta pulēšana, cik statistiskas lavīnas ievilkšana, lai uzvestos vairāk kā sarunu biedrs.

Izciļņi un neveiksmes 🚧

Neizliksimies, ka tas ir nevainojams:

Halucinācijas — skaidras atbildes, kas ir pilnīgi nepareizas [2][3].
Neobjektivitāte — tā atspoguļo datos iebūvētos modeļus; ja netiek kontrolēta, tā var tos pat pastiprināt [3][4].
Nav tiešas pieredzes — var pastāstīt par zupu receptēm, bet nekad nav garšojis [4].
Pārmērīga pašpārliecinātība — proza plūst tā, it kā tā zinātu, pat ja tā to nedara. Riska ietvari uzsver brīdinājuma pieņēmumus [3].

Kāpēc ir sajūta , ka zini 🧠

Tam nav ne uzskatu, ne atmiņas cilvēciskajā izpratnē un noteikti nav "es". Tomēr, tā kā tas gludi saliek teikumus kopā, jūsu smadzenes to lasa tā, it kā saprastu. Notiek tikai milzīga mēroga nākamā žetona paredzēšana: triljonu varbūtību apstrāde sekundes simtdaļās [2].

“Intelekta” sajūta ir emergentas uzvedības pētnieki to, nedaudz ironiski, sauc par “stohastiskā papagaiļa” efektu [4].

Bērniem draudzīga analoģija 🎨

Iedomājieties papagaili, kas ir izlasījis visas grāmatas bibliotēkā. Tas nesaprot stāstus , bet var pārveidot vārdus, lai radītu kaut ko gudru. Dažreiz tas ir precīzi, dažreiz tas ir absurds, bet ar pietiekamu talantu ne vienmēr var pateikt atšķirību.

Noslēgumā: no kurienes nāk mākslīgā intelekta informācija 📌

Vienkārši sakot:

Masveida apmācības dati (publiski + licencēti + trenera ģenerēti) [2].
Cilvēka atgriezeniskās saites precīza pielāgošana , lai veidotu toni/uzvedību [1]
Izguves sistēmas , kas pieslēgtas tiešraides datu plūsmām [5].

Mākslīgais intelekts lietas "nezina" — tas paredz tekstu. Tā ir gan tā superspēja, gan Ahilleja papēdis. Galvenais? Vienmēr pārbaudiet svarīgo informāciju, izmantojot uzticamu avotu [3].

Atsauces

Ouyang, L. et al. (2022). Valodu modeļu apmācība instrukciju izpildei ar cilvēka atgriezenisko saiti (InstructGPT). arXiv.
OpenAI (2023). GPT-4 tehniskais ziņojums — licencētu, publisku un cilvēku radītu datu apvienojums; nākamā marķiera prognozēšanas mērķis un ierobežojumi. arXiv.
NIST (2023). Mākslīgā intelekta riska pārvaldības sistēma (AI RMF 1.0) — izcelsme, uzticamība un riska kontrole. PDF fails.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Par stohastisko papagaiļu bīstamību: vai valodu modeļi var būt pārāk lieli? PDF.
Lewis, P. et al. (2020). Izguves papildināta ģenerēšana zināšanu ietilpīgai NLP. arXiv.

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru