Par atvērtā pirmkoda mākslīgo intelektu (AI) runā kā par burvju atslēgu, kas atslēdz visu. Tā nav. Taču tas ir praktisks, atļauju neprasošs veids, kā veidot AI sistēmas, kuras var saprast, uzlabot un piegādāt, nelūdzoties pārdevējam pārslēgt slēdzi. Ja esat domājuši, kas tiek uzskatīts par “atvērtu”, kas ir tikai mārketings un kā to reāli izmantot darbā, esat īstajā vietā. Iedzeriet kafiju — tas būs noderīgi un varbūt nedaudz pārliecinoši ☕🙂.
Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:
🔗 Kā integrēt mākslīgo intelektu savā uzņēmumā
Praktiski soļi mākslīgā intelekta rīku integrēšanai gudrākai uzņēmējdarbības izaugsmei.
🔗 Kā izmantot mākslīgo intelektu, lai palielinātu produktivitāti
Atklājiet efektīvas mākslīgā intelekta darbplūsmas, kas ietaupa laiku un palielina efektivitāti.
🔗 Kas ir mākslīgā intelekta prasmes?
Apgūstiet galvenās mākslīgā intelekta kompetences, kas ir būtiskas nākotnes profesionāļiem.
🔗 Kas ir Google Vertex mākslīgais intelekts?
Izprotiet Google Vertex mākslīgo intelektu un to, kā tas vienkāršo mašīnmācīšanos.
Kas ir atvērtā koda mākslīgais intelekts? 🤖🔓
Vienkāršāk sakot, atvērtā pirmkoda mākslīgais intelekts nozīmē, ka mākslīgā intelekta sistēmas sastāvdaļas — kods, modeļa svari, datu plūsmas, apmācības skripti un dokumentācija — tiek izlaistas saskaņā ar licencēm, kas ļauj ikvienam tās izmantot, pētīt, modificēt un koplietot, ievērojot saprātīgus nosacījumus. Šī pamata brīvības valoda ir radusies no atvērtā pirmkoda definīcijas un tās ilgstošajiem lietotāju brīvības principiem [1]. Mākslīgā intelekta īpatnība ir tā, ka ir vairāk sastāvdaļu nekā tikai kods.
Daži projekti publicē visu: kodu, apmācības datu avotus, receptes un apmācīto modeli. Citi publicē tikai svarus ar pielāgotu licenci. Ekosistēma dažreiz izmanto paviršus saīsinājumus, tāpēc aplūkosim to nākamajā sadaļā.
Atvērtā koda mākslīgais intelekts pret atvērtajiem svariem pret atvērto piekļuvi 😅
Šeit cilvēki runā viens otram garām.
-
Atvērtā pirmkoda mākslīgais intelekts (AI) — projekts ievēro atvērtā pirmkoda principus visā tā kaudzē. Kods ir pakļauts OSI apstiprinātai licencei, un izplatīšanas noteikumi atļauj plašu izmantošanu, modificēšanu un koplietošanu. Šeit valdošais princips atspoguļo OSI aprakstu: lietotāja brīvība ir pirmajā vietā [1][2].
-
Atvērtie svari — Apmācītos modeļa svarus var lejupielādēt (bieži vien bez maksas), taču saskaņā ar īpašiem noteikumiem. Jūs redzēsiet lietošanas nosacījumus, izplatīšanas ierobežojumus vai ziņošanas noteikumus. Meta Llama saime to ilustrē: koda ekosistēma ir diezgan atvērta, taču modeļa svari tiek piegādāti saskaņā ar īpašu licenci ar lietošanas nosacījumiem [4].
-
Atvērta piekļuve — varat piekļūt API, varbūt bez maksas, bet nesaņemat svarus. Noderīgi eksperimentiem, bet nav atvērtā pirmkoda.
Tā nav tikai semantika. Jūsu tiesības un riski mainās visās šajās kategorijās. OSI pašreizējais darbs mākslīgā intelekta un atvērtības jomā atklāj šīs nianses vienkāršā valodā [2].
Kas padara atvērtā pirmkoda mākslīgo intelektu patiesībā labu ✅
Būsim ātri un godīgi.
-
Auditējamība — varat lasīt kodu, pārbaudīt datu receptes un izsekot apmācības soļiem. Tas palīdz nodrošināt atbilstību, drošības pārskatus un apmierināt vecmodīgu ziņkāri. NIST mākslīgā intelekta riska pārvaldības sistēma veicina dokumentācijas un pārredzamības praksi, ko atvērtie projekti var vieglāk apmierināt [3].
-
Pielāgošanās spēja — Jūs neesat iesprostots pārdevēja plānā. Sadaliet to. Salāpojiet to. Nosūtiet to. Lego, nevis līmēta plastmasa.
-
Izmaksu kontrole — pats mitiniet serveri, kad tas ir lētāk. Pārejiet uz mākoņpakalpojumiem, kad tas nav izdevīgi. Kombinējiet aparatūru.
-
Kopienas ātrums — Kļūdas tiek labotas, funkcijas tiek izvietotas, un jūs mācāties no vienaudžiem. Netīri? Dažreiz. Produktīvi? Bieži.
-
Pārvaldības skaidrība — īstas atvērtās licences ir paredzamas. Salīdziniet to ar API pakalpojumu sniegšanas noteikumiem, kas nemanāmi mainās katru otrdienu.
Vai tas ir perfekts? Nē. Taču kompromisi ir saprotami — vairāk nekā daudzos nestandarta pakalpojumos.
Atvērtā pirmkoda mākslīgā intelekta steks: kods, svari, dati un līme 🧩
Iedomājieties mākslīgā intelekta projektu kā neparastu lazanju. Slāņi visur.
-
Ietvari un izpildlaiki — rīki modeļu definēšanai, apmācībai un apkalpošanai (piemēram, PyTorch, TensorFlow). Veselīgas kopienas un dokumentācija ir svarīgāki par zīmolu nosaukumiem.
-
Modeļu arhitektūras — plāns: transformatori, difūzijas modeļi, ar izguves palīdzību papildinātas konfigurācijas.
-
Svari — apmācības laikā apgūtie parametri. Šeit “atvērts” ir atkarīgs no izplatīšanas un komerciālās izmantošanas tiesībām, ne tikai no lejupielādējamības.
-
Dati un receptes — atlases skripti, filtri, papildinājumi, apmācību grafiki. Šeit caurspīdīgums ir reproducējamības zelts.
-
Rīki un orķestrēšana — secinājumu serveri, vektoru datubāzes, novērtēšanas sistēmas, novērojamība, CI/CD.
-
Licencēšana — klusais mugurkauls, kas nosaka, ko jūs faktiski varat darīt. Vairāk informācijas zemāk.
Atvērtā pirmkoda mākslīgā intelekta licencēšanas pamati 📜
Tev nav jābūt juristam. Tev ir jāspēj pamanīt likumsakarības.
-
Atļaujošas koda licences — MIT, BSD, Apache-2.0. Apache ietver skaidru patenta piešķiršanu, ko daudzas komandas novērtē [1].
-
Autortiesības — GPL saime nosaka, ka atvasinātajiem darbiem jāpaliek atvērtiem saskaņā ar to pašu licenci. Jaudīgi, bet ieplānojiet to savā arhitektūrā.
-
Modeļa licences — Svariem un datu kopām redzēsiet pielāgotas licences, piemēram, Atbildīgā mākslīgā intelekta licenču saimi (OpenRAIL). Tajās ir iekodētas uz lietošanu balstītas atļaujas un ierobežojumi; dažas atļauj plašu komerciālu izmantošanu, citas pievieno ierobežojumus attiecībā uz ļaunprātīgu izmantošanu [5].
-
Creative Commons licences datiem — CC-BY vai CC0 ir izplatītas datu kopām un dokumentiem. Atribūciju var pārvaldīt nelielā mērogā; izveidojiet modeli jau laikus.
Profesionāls padoms: Izveidojiet vienas lapas sarakstu, kurā uzskaitīta katra atkarība, tās licence un tas, vai ir atļauta komerciāla izplatīšana. Garlaicīgi? Jā. Nepieciešami? Arī jā.
Salīdzināšanas tabula: populāri atvērtā koda mākslīgā intelekta projekti un to priekšrocības 📊
nedaudz nekārtīgs ar nolūku — tā izskatās īstas banknotes
| Rīks/projekts | Kam tas paredzēts | Dārgs | Kāpēc tas darbojas labi |
|---|---|---|---|
| PyTorch | Pētnieki, inženieri | Bezmaksas | Dinamiski grafiki, milzīga kopiena, spēcīgi dokumenti. Pārbaudīts ražošanas vidē. |
| TensorFlow | Uzņēmumu komandas, mašīnmācīšanās operācijas | Bezmaksas | Diagrammu režīms, TF apkalpošana, ekosistēmas dziļums. Dažiem straujāka mācīšanās, tomēr tā joprojām ir stabila. |
| Apskaujošo seju transformatori | Būvnieki ar termiņiem | Bezmaksas | Iepriekš apmācīti modeļi, cauruļvadi, datu kopas, vienkārša precizēšana. Godīgi sakot, īsceļš. |
| vLLM | Infra-domātas komandas | Bezmaksas | Ātra LLM apkalpošana, efektīva KV kešatmiņa, spēcīga caurlaidspēja uz parastajiem GPU. |
| Lama.cpp | Tinkerētāji, perifērijas ierīces | Bezmaksas | Palaidiet modeļus lokāli klēpjdatoros un tālruņos, izmantojot kvantizāciju. |
| LangChain | Lietotņu izstrādātāji, prototipu veidotāji | Bezmaksas | Saliekamas ķēdes, savienotāji, aģenti. Ātri panākumi, ja visu darīsiet vienkārši. |
| Stabila difūzija | Radošie darbinieki, produktu komandas | Brīvie svari | Attēlu ģenerēšana lokāli vai mākonī; masīvas darbplūsmas un lietotāja saskarnes ap to. |
| Ollama | Izstrādātāji, kuriem patīk lokālās komandas (CLI) | Bezmaksas | Vietējie modeļi, kas pieejami bez iepriekšēja pasūtījuma. Licences atšķiras atkarībā no modeļa kartes — sekojiet tam. |
Jā, daudz “bezmaksas”. Hostings, grafiskie procesori, krātuve un cilvēku darba stundas nav bez maksas.
Kā uzņēmumi faktiski izmanto atvērtā pirmkoda mākslīgo intelektu darbā 🏢⚙️
Jūs dzirdēsiet divas galējības: vai nu visiem vajadzētu visu uzņemt pašiem, vai arī nevienam nevajadzētu. Reālā dzīve ir vienkāršāka.
-
Ātra prototipu izveide — sāciet ar pieļaujamiem atvērtiem modeļiem, lai validētu lietotāja pieredzi un ietekmi. Vēlāk veiciet refaktorēšanu.
-
Hibrīda apkalpošana — konfidencialitātes ziņā jutīgiem izsaukumiem saglabājiet VPC mitinātu vai lokālu modeli. Ilgstošas vai pēkšņas slodzes gadījumā izmantojiet mitinātu API. Ļoti ierasta parādība.
-
Precīza pielāgošana šauriem uzdevumiem — jomas pielāgošana bieži vien ir labāka par neapstrādātu mērogu.
-
RAG visur — ar izgūšanas palīdzību papildināta ģenerēšana samazina halucinācijas, iezemējot atbildes jūsu datos. Atvērtās vektoru datubāzes un adapteri padara šo pieeju pieejamu.
-
Edge un bezsaistes versijas — vieglie modeļi, kas kompilēti klēpjdatoriem, tālruņiem vai pārlūkprogrammām, paplašina produktu platformas.
-
Atbilstība un audits — tā kā varat pārbaudīt visu no iekšpuses, auditoriem ir kaut kas konkrēts, ko pārskatīt. Apvienojiet to ar atbildīgu mākslīgā intelekta politiku, kas atbilst NIST RMF kategorijām un dokumentācijas vadlīnijām [3].
Neliela piezīme: Esmu redzējis, ka privātumu uzmanoša SaaS komanda (vidēja lieluma lietotāji no ES) ieviesa hibrīda iestatījumu: neliels atvērtais modelis VPC ietvaros 80% pieprasījumu; pārsūtīšana uz mitinātu API retām, ilgtermiņa uzvednēm. Viņi samazināja latentumu kopīgajā ceļā un vienkāršoja DPIA dokumentāciju, nevārot okeānu.
Riski un ķibeles, kurām jārēķinās 🧨
Būsim pieauguši šajā jautājumā.
-
Licences nobīde — Repozitorijs sāk MIT, pēc tam svari tiek pārvietoti uz pielāgotu licenci. Regulāri atjauniniet savu iekšējo reģistru, pretējā gadījumā jūs saņemsiet atbilstības pārsteigumu [2][4][5].
-
Datu izcelsme — Apmācības dati ar neskaidrām tiesībām var ieplūst modeļos. Izsekojiet avotus un ievērojiet datu kopu licences, nevis vibrācijas [5].
-
Drošība — Apstrādājiet modeļa artefaktus tāpat kā jebkuru citu piegādes ķēdi: kontrolsummas, parakstītas versijas, SBOM. Pat minimāls SECURITY.md fails pārspēj klusēšanu.
-
Kvalitātes atšķirības — atvērtie modeļi ir ļoti atšķirīgi. Novērtējiet, izmantojot savus uzdevumus, ne tikai līderu sarakstus.
-
Slēptās infrastruktūras izmaksas — ātrai secināšanai ir nepieciešamas grafiskās procesoras, kvantēšana, pakešošana un kešatmiņa. Atvērtie rīki palīdz; jūs joprojām maksājat par skaitļošanas izmaksām.
-
Pārvaldības parāds — ja nevienam nepieder modeļa dzīves cikls, rodas konfigurācijas sabrukums. Viegli lietojams MLOps kontrolsaraksts ir zelts.
Pareizā atvērtības līmeņa izvēle jūsu lietošanas gadījumam 🧭
Nedaudz līkumots lēmumu pieņemšanas ceļš:
-
Vai nepieciešams ātri piegādāt ar nelielām atbilstības prasībām? Sāciet ar atļaujošiem atvērtiem modeļiem, minimālu regulēšanu un mākoņpakalpojumu sniegšanu.
-
Vai nepieciešama stingra privātuma aizsardzība vai bezsaistē ? Izvēlieties labi atbalstītu atvērto steku, pašmitināšanas secinājumus un rūpīgi pārskatiet licences.
-
Vai nepieciešamas plašas komerciālas tiesības un tālākizplatīšana? Dodiet priekšroku OSI saskaņotam kodam, kā arī modeļa licencēm, kas nepārprotami atļauj komerciālu izmantošanu un tālākizplatīšanu [1][5].
-
Vai nepieciešama pētniecības elastība ? Esiet pielaidīgs no sākuma līdz beigām, tostarp attiecībā uz datiem, lai nodrošinātu reproducējamību un kopīgojamību.
-
Neesat pārliecināts? Izmēģiniet abus. Viens ceļš acīmredzami jutīsies labāk pēc nedēļas.
Kā profesionāli novērtēt atvērtā koda mākslīgā intelekta projektu 🔍
Ātrs kontrolsaraksts, ko glabāju, dažreiz uz salvetes.
-
Licences skaidrība — OSI apstiprināts kods? Kā ar svariem un datiem? Vai ir kādi lietošanas ierobežojumi, kas traucē jūsu biznesa modelim [1][2][5]?
-
Dokumentācija — instalēšana, ātrā pamācība, piemēri, problēmu novēršana. Dokumentācija ir kultūras izpausme.
-
Izlaidumu ritms — atzīmētie izlaidumi un izmaiņu žurnāli liecina par stabilitāti; neregulāri izlaidumi liecina par varonību.
-
Salīdzinošie rādītāji un novērtējumi — Vai uzdevumi ir reālistiski? Vai novērtējumi ir izpildāmi?
-
Uzturēšana un pārvaldība — skaidri koda īpašnieki, problēmu šķirošana, reaģēšana uz sabiedrisko attiecību jautājumiem.
-
Atbilstība ekosistēmai — labi sader ar jūsu aparatūru, datu krātuvēm, reģistrēšanu, autorizāciju.
-
Drošības stāvoklis — parakstīti artefakti, atkarību skenēšana, CVE apstrāde.
-
Kopienas signāls — diskusijas, foruma atbildes, repozitoriju piemēri.
Lai nodrošinātu plašāku saskaņotību ar uzticamām praksēm, sasaistiet savu procesu ar NIST AI RMF kategorijām un dokumentācijas artefaktiem [3].
Padziļināta analīze 1: modeļu licenču haotiskais viduspunkts 🧪
Daži no visspējīgākajiem modeļiem atrodas kategorijā “atvērtie svari ar nosacījumiem”. Tie ir pieejami, taču ar lietošanas ierobežojumiem vai tālākizplatīšanas noteikumiem. Tas var būt labi, ja jūsu produkts nav atkarīgs no modeļa atkārtotas iepakošanas vai nosūtīšanas klientu vidēm. Ja jums ir nepieciešams, vienojieties vai izvēlieties citu bāzi. Galvenais ir sasaistīt savus lejupējos plānus ar faktisko licences tekstu, nevis emuāra ierakstu [4][5].
OpenRAIL stila licences cenšas panākt līdzsvaru: veicināt atklātu pētniecību un koplietošanu, vienlaikus atturējot no ļaunprātīgas izmantošanas. Nodoms ir labs; pienākumi joprojām ir jūsu. Izlasiet noteikumus un izlemiet, vai tie atbilst jūsu riska apetītei [5].
Padziļināta analīze 2: datu pārredzamība un reproducējamības mīts 🧬
"Bez pilnīgām datu izgāztuvēm atvērtā pirmkoda mākslīgais intelekts ir viltojums." Ne gluži. Datu izcelsme un receptes var nodrošināt jēgpilnu caurspīdīgumu pat tad, ja daži neapstrādāti datu kopumi ir ierobežoti. Jūs varat pietiekami labi dokumentēt filtrus, izlases koeficientus un tīrīšanas heiristiku, lai cita komanda varētu tuvināti noteikt rezultātus. Perfekta reproducējamība ir laba lieta. Bieži vien pietiek ar praktiski īstenojamu caurspīdīgumu [3][5].
Kad datu kopas ir atvērtas, bieži tiek izmantotas Creative Commons licences, piemēram, CC-BY vai CC0. Atribūcija plašā mērogā var būt sarežģīta, tāpēc standartizējiet tās risināšanu jau laikus.
Padziļināta analīze 3: praktiski MLOp uzdevumi atvērtiem modeļiem 🚢
Atvērtā modeļa piegāde ir līdzīga jebkura pakalpojuma piegādei, plus dažas nianses.
-
Apkalpošanas slānis — specializēti secinājumu serveri optimizē pakešapstrādi, KV kešatmiņas pārvaldību un marķieru straumēšanu.
-
Kvantēšana — mazāki svari → lētāka secinājumu veikšana un vienkāršāka malu izvietošana. Kvalitātes kompromisi atšķiras; izmēriet atbilstoši saviem uzdevumiem.
-
Novērojamība — reģistrējiet uzvednes/izvades, ņemot vērā privātumu. Paraugs novērtēšanai. Pievienojiet nobīdes pārbaudes, tāpat kā tradicionālajā mašīnmācībā.
-
Atjauninājumi — Modeļi var nemanāmi mainīt uzvedību; izmantot kanārijputniņus un saglabāt arhīvu atcelšanai un auditiem.
-
Novērtēšanas rīku komplekts — uzturiet uzdevumam specifisku novērtēšanas komplektu, ne tikai vispārīgus kritērijus. Iekļaujiet pretinieku uzvednes un latentuma budžetus.
Mini plāns: no nulles līdz izmantojamam pilotprojektam 10 soļos 🗺️
-
Definējiet vienu šauru uzdevumu un metriku. Pagaidām nav grandiozu platformu.
-
Izvēlieties atļaujošu bāzes modeli, kas tiek plaši izmantots un labi dokumentēts.
-
Izceliet lokālo secinājumu un plānā apvalka API. Saglabājiet to garlaicīgu.
-
Pievienojiet izgūšanu zemes izvades datiem.
-
Sagatavojiet nelielu, marķētu novērtēšanas kopu, kas atspoguļo jūsu lietotājus, visas problēmas un nepilnības.
-
Veiciet precīzu vai tūlītēju pielāgošanu tikai tad, ja novērtējumā norādīts, ka tas ir jādara.
-
Kvantitatīvi nosakiet, vai ir latentums vai izmaksas. Atkārtoti izmēriet kvalitāti.
-
Pievienojiet reģistrēšanu, sarkanās komandas uzvednes un ļaunprātīgas izmantošanas politiku.
-
Vārti ar funkciju karodziņu un atlaidiet nelielai kohortai.
-
Atkārtojiet. Iesniedziet nelielus uzlabojumus katru nedēļu… vai tad, kad tas patiešām ir labāk.
Izplatīti mīti par atvērtā pirmkoda mākslīgo intelektu, nedaudz atspēkoti 🧱
-
Mīts: atvērtie modeļi vienmēr ir sliktāki. Realitāte: mērķtiecīgiem uzdevumiem ar pareizajiem datiem precīzi noregulēti atvērtie modeļi var pārspēt lielākus mitinātos modeļus.
-
Mīts: atvērtība nozīmē nedrošību. Realitāte: atvērtība var uzlabot kontroli. Drošība ir atkarīga no prakses, nevis slepenības [3].
-
Mīts: licencei nav nozīmes, ja tā ir bezmaksas. Realitāte: tai ir vislielākā , ja tā ir bezmaksas, jo bezmaksas licence mērogo lietojumu. Jūs vēlaties skaidras tiesības, nevis vibrācijas [1][5].
Atvērtā koda mākslīgais intelekts 🧠✨
Atvērtā pirmkoda mākslīgais intelekts nav reliģija. Tas ir praktisku brīvību kopums, kas ļauj veidot ar lielāku kontroli, skaidrāku pārvaldību un ātrāku iterāciju. Kad kāds saka, ka modelis ir “atvērts”, pajautājiet, kuri slāņi ir atvērti: kods, svari, dati vai tikai piekļuve. Izlasiet licenci. Salīdziniet to ar savu lietošanas gadījumu. Un pēc tam, pats galvenais, pārbaudiet to ar savu reālo darba slodzi.
Vislabākā daļa, lai cik dīvaini tas nebūtu, ir kultūras aspekts: atvērtie projekti aicina uz ieguldījumu un pārbaudi, kas parasti uzlabo gan programmatūru, gan cilvēkus. Jūs varat atklāt, ka uzvarošais solis nav lielākais modelis vai spilgtākais etalons, bet gan tas, ko jūs faktiski varat saprast, labot un uzlabot nākamajā nedēļā. Tas ir atvērtā pirmkoda mākslīgā intelekta klusais spēks — nevis brīnumlīdzeklis, bet gan nolietots daudzfunkcionāls rīks, kas turpina glābt situāciju.
Pārāk ilgi nelasīju 📝
Atvērtā pirmkoda mākslīgais intelekts (AI) nozīmē jēgpilnu brīvību izmantot, pētīt, modificēt un koplietot AI sistēmas. Tas izpaužas dažādos slāņos: ietvaros, modeļos, datos un rīkos. Nejauciet atvērto pirmkodu ar atvērtajiem svariem vai atvērto piekļuvi. Pārbaudiet licenci, salīdziniet to ar saviem reālajiem uzdevumiem un jau no pirmās dienas ņemiet vērā drošību un pārvaldību. Dariet to, un jūs iegūsiet ātrumu, kontroli un mierīgāku rīcības plānu. Pārsteidzoši reti, patiesībā nenovērtējami 🙃.
Atsauces
[1] Atvērtā pirmkoda iniciatīva — atvērtā pirmkoda definīcija (OSD): lasīt vairāk
[2] OSI — padziļināta informācija par mākslīgo intelektu un atvērtību: lasīt vairāk
[3] NIST — mākslīgā intelekta risku pārvaldības sistēma: lasīt vairāk
[4] Meta — lamas modeļa licence: lasīt vairāk
[5] Atbildīgas mākslīgā intelekta licences (OpenRAIL): lasīt vairāk