Kā tokenizācija ietekmē mākslīgā intelekta apstrādi?

Tokenizācija sadala tekstu pārvaldāmos fragmentos, ļaujot mākslīgā intelekta modelim efektīvi apstrādāt un saprast valodu. Tā ietekmē modeļa atmiņu, precizitāti un kontekstu, ko tas spēj apstrādāt jebkurā laikā.

Kāpēc ir svarīgi saprast žetonu ierobežojumus mākslīgajā intelektā?

Izpratne par marķieru ierobežojumiem ir ļoti svarīga, jo tā palīdz efektīvi formulēt uzdevumus. Šo ierobežojumu pārsniegšana var novest pie svarīgas informācijas saīsināšanas vai ignorēšanas, kas ietekmē mākslīgā intelekta ģenerēto atbilžu kvalitāti.

Kādi faktori ietekmē žetonu skaitu mākslīgā intelekta uzvednēs?

Žetonu skaitā ir iekļauti vairāki elementi, piemēram, vārdi, pieturzīmes, atstarpes un formatējums. Atkarībā no tokenizera vienu vārdu var attēlot viens vai vairāki žetoni, kas ietekmē to, kā mākslīgais intelekts apstrādā ievadi.

Vai tokena izmantošana var ietekmēt mākslīgā intelekta pakalpojuma izmaksas?

Jā, daudzi mākslīgā intelekta pakalpojumi aprēķina lietojumu, pamatojoties uz apstrādāto žetonu skaitu. Garākas uzvednes un atbildes patērē vairāk žetonu, kas var palielināt jūsu izmaksas, īpaši liela apjoma darbplūsmās.

Kā es varu optimizēt uzvednes, lai samazinātu nevajadzīgu žetonu izmantošanu?

Jūs varat optimizēt savas uzvednes, jau sākumā norādot konkrētu informāciju, izmantojot skaidras etiķetes dažādām sadaļām un noņemot lieku aizpildītāju tekstu. Strukturētas uzvednes palīdz mākslīgajam intelektam koncentrēties uz būtiskajiem elementiem, netērējot vietu nesvarīgai informācijai.

Kā tokenizācija tiek galā ar sarežģītu valodu vai simboliem?

Tokenizācija palīdz mākslīgā intelekta sistēmām pārvaldīt sarežģītu valodu, tostarp slengu, emocijzīmes vai tehnisko žargonu, sadalot nepazīstamus vārdus atpazīstamās daļās. Tas ļauj labāk izprast un apstrādāt dažādus valodas stilus.

Kas notiek, ja es sniedzu uzvedni, kas ir pārāk gara mākslīgā intelekta konteksta logam?

Ja uzvedne pārsniedz mākslīgā intelekta konteksta logu, daļa satura var tikt saīsināta, apkopota vai pilnībā izslēgta no izskatīšanas. Tas var novest pie mazāk precīzām vai nepilnīgām atbildēm, tāpēc ir svarīgi nepārsniegt ierobežojumu.

Kas ir žetons mākslīgajā intelektā? [Video un viktorīna]

Īsa atbilde: marķieris ir neliels teksta vai datu fragments, ko mākslīgā intelekta modelis pārvērš skaitļos un procesos. Marķieri ietekmē izmaksas, ātrumu, atmiņu un izvades garumu. Kad uzvedne pārsniedz konteksta logu, svarīgs saturs var tikt saīsināts, apkopots vai izslēgts.

Galvenie secinājumi:

Tokenizācija: vārdus, pieturzīmes, atstarpes un kodu var sadalīt dažādos veidos.

Konteksts: Saglabājiet būtisko informāciju modeļa pieejamā marķiera logā.

Izmaksas: Samaziniet atkārtotu instrukciju un nevajadzīga teksta daudzumu liela apjoma mākslīgā intelekta darbplūsmās.

Skaidrība: laikus norādiet galveno uzdevumu un organizējiet prasības ar skaidriem nosaukumiem.

Efektivitāte: pirms rezultātu apvienošanas sadaliet pārāk lielus dokumentus loģiskās sadaļās.

Kas ir žetons mākslīgajā intelektā? Infografika

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kādi ir mākslīgā intelekta veidi?
Izprotiet mākslīgā intelekta kategorijas pēc iespējām, funkcionalitātes, apmācības stila un praktiskā pielietojuma.

🔗 Kas ir mākslīgā intelekta brilles?
Izpētiet viedbriļļu funkcijas, brīvroku lietošanu, privātumu un praktiskos ierobežojumus.

🔗 Kas ir mākslīgā intelekta TV?
Uzziniet, kā mākslīgais intelekts uzlabo attēlu, skaņu, meklēšanu, ieteikumus un pieejamību.

🔗 Kas ir mākslīgā intelekta radīta kļūda?
Atpazīstiet zemas kvalitātes mākslīgā intelekta saturu un uzlabojiet precizitāti, oriģinalitāti un mērķtiecību.

1. Kas ir žetons mākslīgajā intelektā? Vienkārša atbilde

Mākslīgajā intelektā marķieris ir teksta vienība, ko modelis izmanto, lai saprastu un ģenerētu valodu .

Piemēram, teikums:

Es mīlu picu.

Varētu iedalīt žetonos, piemēram:

Es
mīlestība
pica
.

Pietiekami vienkārši.

Bet tas ne vienmēr ir tik glīti. Garāku vai neparastu vārdu var sadalīt mazākos gabalos. Piemēram:

neticams

Varētu kļūt par kaut ko līdzīgu:

un
ticēt
spējīgs

Dažādas mākslīgā intelekta sistēmas izmanto dažādus tokenizerus, tāpēc precīzs sadalījums var atšķirties. Tāpēc tokeni var šķist nedaudz neskaidri. Tie nav gluži vārdi, ne gluži burti un ne vienmēr arī zilbes.

Labāks veids, kā par to domāt, ir šāds:

Žetoni ir nelieli valodas fragmenti, ko mākslīgā intelekta modelis var sagremot. 🍽️

Kad uzdodat tērzēšanas robotam jautājumu, sistēma neuztver jūsu teikumu kā vienu vienmērīgu cilvēka domu. Tā sagriež ievadi žetonos, pārvērš tos skaitļos, apstrādā to attiecības un pēc tam atkal un atkal prognozē visticamāko nākamo žetonu, līdz izveido atbildi.

Tātad, kad cilvēki jautā: “Kas ir žetons mākslīgajā intelektā?”, atbilde nav tikai “teksta fragments”. Tā ir pamata darba vienība, kas padara valodas mākslīgo intelektu iespējamu.

2. Kāpēc žetoni ir svarīgāki, nekā cilvēki sagaida

Tokeniem ir nozīme, jo tie ietekmē gandrīz visu, kas saistīts ar mākslīgā intelekta rīku darbību.

Tie ietekmē:

Cik daudz teksta mākslīgais intelekts var apstrādāt vienlaikus
Cik maksā pieprasījums daudzās mākslīgā intelekta sistēmās
Cik ātri modelis reaģē
Cik daudz detaļu modelis spēj atcerēties
Cik precīzi modelis saprot jūsu uzdevumu
Cik ilgi atbilde var būt

Šeit tas kļūst pārsteidzoši praktiski.

Kad mākslīgā intelekta rīks norāda, ka tam ir “konteksta logs”, tas parasti nozīmē maksimālo žetonu skaitu, ko tas var ņemt vērā vienlaikus. Žetonus aizņem jūsu uzvedne, sarunas vēsture, augšupielādētais teksts, sistēmas instrukcijas un modeļa atbilde.

Tātad, ja ielīmējat milzīgu dokumentu mākslīgā intelekta asistentā un pēc tam vaicājat: “Apkopojiet šo”, modelim ir jāiekļauj šis teksts tā marķiera ierobežojumā. Ja saturs ir pārāk garš, daļas var tikt nogrieztas, saspiestas vai ignorētas atkarībā no rīka dizaina.

Žetoni nav tikai tehniski sīkumi. Tie ir vieta uz mākslīgā intelekta galda. Pārāk daudz papīra uz galda, un lietas sāk slīdēt pāri malai 📄.

3. Žetoni nav tas pats, kas vārdi

Šis droši vien ir lielākais pārpratums.

Žetons ne vienmēr ir viens vārds.

Dažreiz viens vārds ir vienāds ar vienu žetonu. Dažreiz viens vārds kļūst par vairākiem žetoniem. Dažreiz pieturzīmes vai atstarpes skaitās kā atsevišķa žetons. Kaitinoši? Nedaudz. Svarīgi? Ļoti.

Šeit ir aptuvens piemērs:

Teksta piemērs	Iespējama žetonu sadalīšana	Ko tas nozīmē
`kaķis`	`kaķis`	Viens vienkāršs vārds, iespējams, viens simbols
`kaķi`	`kaķi` vai `kaķis` + `s`	Atkarīgs no tokenizera
`internacionalizācija`	`starptautiska` + `izācija` vai mazāki fragmenti	Gari vārdi bieži sadalās
`Ar mākslīgā intelekta palīdzību`	`AI` + `-` + `darbina`	Pieturzīmes var tikt ieskaitītas
`Hei!!!`	`Hei` + `!` + `!` + `!`	Jā, arī pieturzīmes var apēst žetonus
`superkalifornisks`	vairāki gabali, iespējams	Modele iekšēji nopūšas, laikam 😅

Nav universāla noteikuma, kas darbotos perfekti katram modelim.

Bieži tiek uzskatīts, ka viens marķieris bieži vien apzīmē dažas rakstzīmes vai vārda daļu. Taču tas ir tikai praktisks noteikums, nevis patiesība. Angļu valodas teksts parasti tiek tokenizēts efektīvāk nekā dažās citās valodās, un kods var darboties atšķirīgi.

Tāpēc īsā izskatā teikumā var tikt izmantots vairāk marķieru nekā paredzēts. Un gara rindkopa ar bieži lietotiem vārdiem varētu tikt veidota marķieru veidā vienmērīgāk nekā rindkopa, kas ir pilna ar tehniskiem terminiem, simboliem vai neparastu formatējumu.

4. Kā mākslīgais intelekts izmanto žetonus teksta ģenerēšanai

Te ir nedaudz maģiskā daļa — lai gan tā ir matemātika burvja cepurē 🧙.

Kad ierakstāt uzvedni, mākslīgā intelekta sistēma rīkojas šādi:

Sadala jūsu tekstu žetonos
Pārveido katru marķieri skaitlī vai skaitliskā attēlojumā
Analizē marķieru modeļus un attiecības
Prognozē nākamo iespējamo žetonu
Atkārto šo prognozēšanas procesu
Pārveido ģenerētos tokenus atpakaļ lasāmā tekstā

Tātad, ja jūs rakstāt:

Debesis ir

Modelis varētu paredzēt:

zils

Bet tas varētu arī paredzēt:

mākoņains,
krītošs,
ne robeža,
pilns ar zvaigznēm

Izvēlētais rezultāts ir atkarīgs no modeļa, uzvednes, konteksta un iestatījumiem, kas kontrolē nejaušību vai radošumu.

Tāpēc mākslīgā intelekta rakstīšana dažreiz šķiet plūstoša, bet reizēm aizklīst nezālēs. Tā paredz vienu simbolu pēc otra, balstoties uz apgūtiem modeļiem, nevis izvelk gatavus teikumus no dokumentu skapja.

Tas nenozīmē, ka modelis ir “tikai automātiski pabeigts” vienkāršā nozīmē. Lieli mākslīgā intelekta modeļi apgūst ārkārtīgi sarežģītas attiecības starp jēdzieniem, valodu, struktūru, toni, loģiku un kontekstu. Taču izvades līmenī mašīna joprojām ģenerē tekstu pa vienam marķierim vienlaikus.

Mazi pakāpieni. Liela ilūzija. Ļoti greznas kāpnes.

5. Salīdzināšanas tabula: Žetonu veidi mākslīgajā intelektā

Žetoni var parādīties dažādās formās atkarībā no modeļa, tokenizera un satura veida. Šeit ir praktisks salīdzinājums.

Žetona tips	Piemērs	Kur tas parādās	Kāpēc tas ir svarīgi
Vārda marķieris	`ābols`	Vienkāršas teksta uzvednes	Viegli saprotams, kārtīgs un sakārtots
Apakšvārda marķieris	`spēlēties` + `spēlēt`	Garāki vai pārveidoti vārdi	Palīdz mākslīgajam intelektam apstrādāt nepazīstamus vārdus
Rakstzīmes marķieris	`a`, `b`, `c`	Dažas tokenizācijas sistēmas	Elastīgs, bet var būt neefektīvs
Pieturzīmju marķieris	`.`, `?`, `!`	Visāda veida rakstīšana, kaitinoši	Ietekmē toni un žetonu skaitu
Atstarpes marķieris	atstarpes, rindiņu pārtraukumi	Formatēts teksts un kods	Diemžēl formatēšana nav bezmaksas
Koda žetons	`funkcija`, `{`, `==`	Programmēšanas uzvednes	Kods var ātri sadedzināt žetonus
Īpašs žetons	sākuma/beigu marķieri	Aizkadrā	Palīdz modeļa struktūras ievadei
Nezināms vai rets fragments	neparasti fragmenti	Vārdi, slengs, drukas kļūdas	Var nedaudz ietekmēt precizitāti

Ne katrs mākslīgā intelekta modelis izmanto visus šos elementus vienādi. Dažas sistēmas lielā mērā paļaujas uz apakšvārdu tokenizāciju, jo tā līdzsvaro efektivitāti ar elastību. Tā ļauj modelim apstrādāt vārdus, ko tas nekad iepriekš nav redzējis precīzi, sadalot tos daļās, kuras tas atpazīst.

Piemēram, ja modelis saprot vārdus mikro, bioun loģika, tam ir labākas izredzes strādāt ar sarežģītiem zinātniskiem vārdiem, pat ja tie ir neparasti.

Nav perfekts. Bet diezgan gudrs. 🧩

6. Kas ir žetons mākslīgajā intelektā? Kāpēc tas ietekmē izmaksas

Daudzi mākslīgā intelekta rīki mēra lietojumu žetonos.

Tas nozīmē, ka gan jūsu ievade, gan mākslīgā intelekta izvade var tikt ieskaitīta lietojumā. Ja nosūtāt garu uzvedni, tas izmanto vairāk žetonu. Ja modelis raksta garu atbildi, tas arī izmanto vairāk žetonu.

Īss jautājums, piemēram:

Izskaidrojiet gravitāciju.

Izmanto salīdzinoši maz ievades žetonu.

Bet šis aicinājums:

Izskaidrojiet gravitāciju detalizētā, iesācējiem draudzīgā veidā, iekļaujiet piemērus, salīdziniet to ar magnētismu, pievienojiet tabulu, pārrakstiet to bērnam un pēc tam pārveidojiet to runā.

Izmanto vairāk ievades žetonu un prasa arī garāku izvadi.

Tātad simboliskās izmaksas bieži rodas no abām pusēm:

Ievades žetoni — ko jūs nosūtāt modelim
Izvades žetoni — ko ģenerē modelis
Konteksta žetoni — iekļautas iepriekšējās sarunas vai dokumenti
Sistēmas žetoni — slēptas instrukcijas, kas vada uzvedību

Tāpēc ļoti garas sarunas var šķist lēnākas vai ierobežotākas. Mākslīgais intelekts var nest sarunas agrākās daļas līdzi savā kontekstā. Kā mugursoma, pilna ar ķieģeļiem. Vērtīgi ķieģeļi, bet tomēr ķieģeļi.

Uzņēmumiem, kas izmanto mākslīgo intelektu, izmantojot API, tokenu efektivitāte var kļūt par budžeta problēmu. Sapinkusies uzvedne, kas atkārtota tūkstošiem reižu, var izšķērdēt pārsteidzoši daudz naudas. Skaidra uzvedne ir ne tikai skaistāka, bet arī lētāka.

7. Žetonu ierobežojumi un mākslīgā intelekta konteksta logs

Konteksta logs ir viena no svarīgākajām idejām, kas saistītas ar žetoniem.

Tas attiecas uz tokenu skaitu, ko mākslīgā intelekta modelis var apstrādāt vienlaikus. Tas ietver jūsu uzvedni, iepriekšējos ziņojumus, ielīmētos dokumentus, instrukcijas un ģenerēto atbildi.

Iedomājieties, ka mākslīgajam intelektam ir tāfele. Visam, kas tam jāņem vērā, jāietilpst uz tās. Kad tāfele ir pilna, kaut kam ir jāatbrīvojas.

Tas var novest pie dažām situācijām:

Modelis var aizmirst garas sarunas agrākās daļas
Pirms analīzes dokuments var būt jāapkopo
Garas uzvednes var atstāt mazāk vietas garām atbildēm
Atkārtots konteksts var izspiest svarīgas detaļas
Modelis varētu vairāk koncentrēties uz jaunāko informāciju

Tāpēc ātrs dizains ir svarīgs.

Uzvedne, piemēram:

Izlasi visu šo un pastāsti man, kas ir svarīgi.

Varētu darboties, bet tas varētu nebūt ideāli.

Labāks uzvedums varētu teikt:

Apkopojiet galveno argumentu, uzskaitiet riskus, identificējiet pretrunas un norādiet piecus galvenos rīcības punktus.

Tas dod modelim skaidrāku uzdevumu un palīdz tam tērēt žetonus vērtīgam darbam, nevis minēt jūsu nodomu.

Žetoni nav tikai tehnisks ierobežojums. Tie veido veidu, kā jums vajadzētu sazināties ar mākslīgo intelektu.

8. Kāpēc tokenizācija palīdz mākslīgajam intelektam tikt galā ar nepaklausīgu valodu

Cilvēku valoda ir nepaklausīga. Agresīvi nepaklausīga.

Cilvēki lieto slengu, drukas kļūdas, emocijzīmes, saīsinājumus, kodu maiņu, zīmolu nosaukumus, heštegus, izdomātus vārdus un teikumu fragmentus, kas izskatās tā, it kā viņi būtu nokrituši pa kāpnēm.

Tokenizācija palīdz mākslīgajam intelektam tikt galā ar šo samezglojumu.

Tā vietā, lai iegaumētu katru iespējamo vārdu, modelis var sadalīt nepazīstamu tekstu mazākās zināmās daļās. Tas palīdz ar:

Pareizrakstības kļūdas
Jauni noteikumi
Salikteņi
Tehniskā vārdnīca
Vārdi
Interneta slengs
Emocijas un simboli
Programmēšanas sintakse

Piemēram, tāds vārds kā:

ultrapersonalizācija

Varētu netikt uzskatīts par vienu pazīstamu vārdu. Taču mākslīgais intelekts var atpazīt tādus elementus kā:

ultra
personīgs
izācija

Tas dod tai cīņas iespēju.

Tāpēc tokenizācija ir vērtīga arī dažādās valodās. Dažās valodās starp vārdiem ir skaidras atstarpes. Citās atstarpes netiek izmantotas vienādi. Dažās ir bagātīgas vārdu formas. Dažas apvieno idejas garos salikteņos. Tokenu sistēmas palīdz to visu standartizēt apstrādājamās vienībās.

Tas nav gluži eleganti. Drīzāk kā dārzeņu smalcināšana ar kalkulatoru. Bet tas darbojas 🥕.

9. Žetoni tekstā, attēlos, audio un multimodālā mākslīgā intelekta formātā

Frāze “ token” mākslīgajā intelektā parasti parādās teksta modeļos, taču plašākā ideja var attiekties arī uz ārpus teksta robežām.

Multimodālā mākslīgā intelekta sistēmās var apstrādāt attēlus, audio, video vai strukturētus datus, izmantojot marķieriem līdzīgas vienības. Detaļas atšķiras, taču pamatideja ir līdzīga: sadalīt sarežģītu informāciju mazākos gabalos, ko modelis var apstrādāt.

Piemēram:

Tekstu var sadalīt vārdu vai apakšvārdu marķieros
Attēlus var sadalīt ielāpos vai vizuālos attēlojumos
Audio var tikt sadalīts laika segmentos vai kodētās vienībās
Kodu var sadalīt ar sintaksi saistītos tokenos
Tabulas var pārveidot strukturētās marķieru secībās

Tas ir svarīgi, jo mūsdienu mākslīgais intelekts arvien vairāk nav tikai “tērzēšana”. Tas var interpretēt ekrānuzņēmumus, aprakstīt attēlus, analizēt diagrammas, pārrakstīt audio, spriest par kodu un atbildēt dažādos formātos.

Bet pamatprincips atkārtojas atkal un atkal:

Sadaliet ievades datus pārvaldāmās daļās, pārveidojiet šīs daļas skaitļos un ļaujiet modelim apgūt to savstarpējās attiecības.

Tā, plašākā nozīmē, ir tokenizācija.

Tas ir tulkošanas slānis starp cilvēka tekstūru un mašīnlasāmu struktūru.

10. Kā žetoni ietekmē ātru inženieriju

Uzvedņu inženierija izklausās krāšņāk, nekā tā ir patiesībā. Dažreiz tas nozīmē vienkārši: “jautājiet skaidri un beidziet pieblīvēt savu uzdevumu ar nevēlamu saturu.” Stingri, bet precīzi.

Žetoniem ir liela nozīme labākā pamudināšanā.

Šeit ir daži praktiski veidi, kā izmantot žetonu izpratni:

Esiet konkrēts jau laikus

Novietojiet galveno uzdevumu pašā sākumā:

Uzrakstiet kodolīgu produkta aprakstu budžetam draudzīgai galda lampai.

Nevis:

Es domāju par to, ka varbūt varētu izveidot kaut ko produkta lapai, un tas būtu par lampu, un man vajag vārdus...

Otrā versija izšķiež žetonus un aizkavē punktu.

Noņemiet nevajadzīgo pildvielu

Mākslīgais intelekts var saprast ikdienas valodu, taču papildu atkāpes aizņem kontekstu. Jums nav jāraksta kā robotam, taču apgriešana palīdz.

Izmantojiet struktūru

Virsraksti, aizzīmes, numurēti soļi un etiķetes var palīdzēt modelim saprast, kas kur notiek.

Piemērs:

Mērķis:
Auditorija:
Tonis:
Formāts:
Ierobežojumi:

Parasti tas darbojas labāk nekā teksta lāse.

Pastāstiet mākslīgajam intelektam, ko ignorēt

Tas ir klusi spēcīgs.

Jūs varat teikt:

Ignorējiet atkārtotus standarta apgalvojumus un koncentrējieties tikai uz cenu atšķirībām.

Tas neļauj modelim pievērst uzmanību mazvērtīgam saturam.

Saglabājiet garas sarunas organizētas

Garās sarunās laiku pa laikam apkopojiet galvenos lēmumus. Tas palīdz saglabāt kontekstu un samazina apjukumu.

Būtībā žetonu apzinīga pamudināšana ir kā čemodāna iesaiņošana. Jūs varat paņemt līdzi nepieciešamākās lietas vai arī trīs pannas un brīnīties, kāpēc jūsu zeķes neder.

11. Bieži sastopami nepareizi priekšstati par mākslīgā intelekta žetoniem

Noskaidrosim dažas lietas, jo saruna par simboliem ātri kļūst neskaidra.

1. nepareizais priekšstats: viens žetons ir vienāds ar vienu vārdu

Nē. Dažreiz jā, bieži vien nē. Žetoni var būt vārdi, vārdu daļas, pieturzīmes vai citi fragmenti.

2. nepareizais priekšstats: vairāk žetonu vienmēr nozīmē labākas atbildes

Ne obligāti. Garāka uzvedne var palīdzēt, ja tā pievieno vērtīgu kontekstu. Taču pārāk piesātināta uzvedne var sajaukt modeli vai izniekot vietu.

3. nepareizais priekšstats: Žetonu ierobežojumi ietekmē tikai garus dokumentus

Tie ietekmē arī parastās tērzēšanas sarunas, īpaši, ja sarunai ir daudz pavērsienu. Modelim, iespējams, būs jāņem vērā iepriekšējie ziņojumi, norādījumi un jūsu jaunākais pieprasījums.

4. nepareizais priekšstats: mākslīgais intelekts saprot žetonus tāpat kā cilvēki saprot vārdus

Ne cilvēciskā izpratnē. Cilvēki vārdiem piesaista dzīves pieredzi, sensorisko atmiņu, nodomu un emocijas. Mākslīgā intelekta modeļi apstrādā statistiskus un semantiskus modeļus simbolu secībās. Tas var radīt iespaidīgu spriešanu, taču tas nav tas pats process.

5. nepareizais priekšstats: Tokenizācija ir garlaicīga aizmugursistēmas lieta

Izklausās garlaicīgi. Tā nav. Tokenizācija ietekmē izmaksas, ātrumu, atmiņu, precizitāti un lietotāja pieredzi. Maza eņģe, milzīgas durvis 🚪.

12. Žetonu piemēri no reālās dzīves mākslīgajā intelektā

Padarīsim to mazāk abstraktu.

1. piemērs: saruna, izmantojot tērzēšanas robotu

Jūs rakstāt:

Vai varat uzrakstīt pieklājīgu e-pastu ar lūgumu atmaksāt naudu?

Mākslīgais intelekts to sadala žetonos, saprot pieprasījuma modeli un ģenerē atbildes žetonu pa žetonam.

2. piemērs: Garš dokumenta kopsavilkums

Jūs ielīmējat politikas dokumentu. Mākslīgais intelekts tokenizē visu. Ja tas ietilpst konteksta logā, lieliski. Ja nē, rīkam, iespējams, būs jāsadala fragmentos, jāapkopo vai jāsaīsina.

3. piemērs: Kodēšanas asistents

Jūs jautājat:

Izlabojiet šo JavaScript funkciju.

Kodā bieži tiek izmantoti simboli, atkāpes, operatori un specifiska sintaksi. Tie visi arī tokenizē. Tāpēc kodā ietilpīgas uzvednes var ātri izmantot daudz tokenu.

4. piemērs: SEO rakstu rakstīšana

Uzvednē, kurā tiek prasīts virsraksts, izklāsts, virsraksti, atslēgvārdi, tonis, piemēri un meta apraksts, tiek izmantots vairāk žetonu nekā pamata pieprasījumā. Arī izvadē tiek izmantots daudz žetonu, jo raksts ir garš.

5. piemērs: klientu atbalsta automatizācija

Uzņēmums var nosūtīt mākslīgajam intelektam klienta ziņojumu, konta informāciju, politikas fragmentus un atbildes noteikumus. Tas viss kļūst par žetoniem. Jo vairāk konteksta ir iekļauts, jo uzmanīgākai sistēmai jābūt attiecībā uz ierobežojumiem un izmaksām.

Žetoni parādās visur, tiklīdz sāc tos pamanīt. Kā putekļi saules gaismā, tikai nerdīgāki.

13. Kāpēc izpratne par žetoniem ļauj labāk izmantot mākslīgo intelektu

Lai gūtu labumu no žetonu izpratnes, nav jākļūst par mašīnmācīšanās inženieri.

Pamatzināšanas palīdzēs jums:

Rakstiet tīrākas uzvednes
Izvairieties no modeļa pārslodzes
Izprotiet, kāpēc garas sarunas dažkārt novirzās no ierastā laika
Novērtējiet, kāpēc viens pieprasījums maksā vairāk nekā otrs
Izveidojiet labākus kopsavilkumus
Strādājiet gudrāk ar dokumentiem
Iegūstiet konsekventākus mākslīgā intelekta rezultātus

Tas arī palīdz pārtraukt izturēties pret mākslīgo intelektu kā pret burvju kastīti.

Tā ir laba lieta. Burvju kastes domāšana noved pie izkropļotām cerībām. Žetonu apzinoša domāšana padara rīku vieglāk pārvaldāmu.

Kad saproti, ka mākslīgais intelekts darbojas, izmantojot žetonu modeļus, sāc uzdot labākus jautājumus. Sniegsi labāku kontekstu. Izvairies tērzēšanā iekļaut romānu un jautāt: “Kādas domas?”, ko, godīgi sakot, lielākā daļa no mums kādā brīdī ir vēlējušies darīt.

Jo labāka ir jūsu ievade, jo labāku marķiera taku modelis var izsekot.

14. Kas ir žetons mākslīgajā intelektā? Praktiski secinājumi

Tātad, kas ir marķieris mākslīgajā intelektā? Tā ir neliela teksta vai datu vienība, ko apstrādā mākslīgā intelekta modelis.

Bet praktiskāka atbilde ir šāda:

Tokens ir pamata saziņas elements starp cilvēka valodu un mašīnu spriešanu. Tas ir veids, kā jūsu sapinušais, emocionālais, ar drukas kļūdām pilnais teikums kļūst par kaut ko tādu, ar ko modelis var veikt aprēķinus.

Žetoni ietekmē modeļa:

Izpratne
Atmiņa
Izmaksas
Ātrums
Izejas garums
Precizitāte
Formatēšana
Konteksta apstrāde

Lielāko daļu laika tie ir neredzami, bet vienmēr ir klāt.

Katra jūsu rakstītā uzvedne kļūst par žetoniem. Katra atbilde, ko izlasāt, tika ģenerēta no žetoniem. Katra rindkopa, komats, emocijzīme, koda fragments un neveikla frāze tiek sadalīta vienībās, kuras modelis var apstrādāt.

Pat šis teikums ir žetoni. Ļoti meta. Nedaudz kaitinoši. Diezgan skaisti. ✨

15. Noslēguma piezīme

Kas ir tokens mākslīgajā intelektā? Tokens ir neliela valodas daļa, ko mākslīgā intelekta modeļi izmanto teksta lasīšanai, interpretēšanai un ģenerēšanai. Tas var būt vārds, vārda daļa, pieturzīme, atstarpe vai cita sīka vienība atkarībā no tokenizera.

Izpratne par tokeniem palīdz saprast, kāpēc mākslīgā intelekta rīkiem ir ierobežojumi, kāpēc garas uzvednes maksā vairāk, kāpēc konteksts ir svarīgs un kāpēc skaidras instrukcijas parasti darbojas labāk nekā milzīgas, sapinkušas rindkopas.

Sākumā viss izklausās tehniski, bet galu galā tas ir kaut kas praktisks:

Mākslīgais intelekts nepatērē valodu pilnos, cilvēka formā veidotos fragmentos. Tas sadala valodu žetonos, pēta modeļus un paredz, kas notiks tālāk.

Sīki gabaliņi. Milzīgi rezultāti. Savdabīgs mazs brīnums 🤖✨

Reālās pasaules piemērs: Žetonu efektīva klientu atbalsta asistenta izveide

Scenārijs

Neliels tiešsaistes mēbeļu mazumtirgotājs izmanto mākslīgā intelekta palīgu, lai sagatavotu atbildes uz piegādes sūdzībām, atmaksas pieprasījumiem un bojātu preču ziņojumiem.

Pirmajā versijā asistents saņem visu atgriešanas rokasgrāmatu, klienta pilnu ziņojumu vēsturi, pasūtījuma informāciju, vairākas atbilžu parauga versijas un garu rakstīšanas noteikumu kopu ikreiz, kad kāds atver pieprasījumu. Parasti tiek sniegta derīga atbilde, taču uzvedne ir gara, pieprasījumu apstrāde aizņem ilgāku laiku, un svarīga informācija var tikt paslēpta zem neatbilstoša politikas teksta.

Atbalsta vadītājs pārveido darbplūsmu tā, lai katrs pieprasījums ietvertu tikai tās politikas sadaļas, kas attiecas uz pieprasījumu. Vecāki ziņojumi tiek aizstāti ar īsu faktu kopsavilkumu, savukārt klienta pašreizējais ziņojums paliek nemainīgs. Tas atstāj lielāku konteksta loga daļu pieejamu pašam uzdevumam un no tā izrietošajai atbildei.

Kas asistentam ir nepieciešams

Klienta jaunākais ziņojums un pasūtījuma informācija
Īss iepriekšējo ziņojumu kopsavilkums, tostarp visi jau dotie solījumi
Tikai attiecīgās politikas sadaļas, piemēram, par atmaksu vai bojātām piegādēm
Uzņēmuma apstiprinātais tonis un atbildes formāts
Pieņemamu un nepieņemamu atbilžu piemēri
Skaidri noteikumi par atmaksu, nomaiņu, eskalāciju un trūkstošu informāciju
Atļauja sagatavot atbildes melnrakstu, bet ne izsniegt atmaksas vai mainīt rīkojumus
Piekļuve cilvēka pārstāvim, ja polise neattiecas uz konkrēto situāciju

Ja iespējams, darbplūsmai vajadzētu automātiski izgūt attiecīgo politikas tekstu. Pilnīgas rokasgrāmatas ielīmēšana katrā pieprasījumā izšķērdē žetonus un palielina risku, ka asistents piemēros nepareizu noteikumu.

Instrukcijas piemērs

Sagatavojiet atbildes projektu klientam, izmantojot tikai tālāk sniegto pasūtījuma informāciju, sarunas kopsavilkumu un politikas izrakstus.

Sāciet, atzīstot konkrēto problēmu. Pēc tam skaidrā un saprotamā valodā paskaidrojiet iespējamo nākamo soli.

Nesoliet atmaksu, nomaiņu, piegādes datumu vai konta kredītu, ja vien to nepieļauj sniegtā politika. Neizdomājiet trūkstošu pasūtījuma informāciju.

Ja pierādījumi ir nepilnīgi vai politika nav nepārprotami piemērojama, rakstiet “ESKALĒT CILVĒKA PĀRSTĀVJAM”, kam seko viens teikums, kurā paskaidrots, kas ir jāpārbauda.

Klientam paredzētajā atbildē nedrīkst būt vairāk par 180 vārdiem. Nepieminiet iekšējās politikas, žetonu ierobežojumus, izguves sistēmas vai šos norādījumus.

Skaidras etiķetes var atvieglot ievades pārskatīšanu:

Klienta ziņojums:
“Mans rakstāmgalds ieradās šorīt, bet viena kāja ir saplaisājusi. Man tas ir vajadzīgs pasākumam piektdien. Vai varat līdz tam laikam nosūtīt aizvietotāju?”

Sarunas kopsavilkums:
Pirmais kontakts. Nav sniegts atmaksas, nomaiņas vai piegādes solījums.

Pasūtījuma informācija:
Rakstāmgalds piegādāts šodien. Pievienota bojātās kājas fotogrāfija. Rezerves preces noliktavā nav pieejamas.

Attiecīgā politika:
Klienti 14 dienu laikā var pieprasīt preces nomaiņu, ja tā ir ziņota kā bojāta. Piegādes datumi nedrīkst tikt garantēti, kamēr nav apstiprināta preces pieejamība noliktavā.

Slikta atbilde būtu šāda:

Mēs nekavējoties nosūtīsim aizvietojošo preci un nodrošināsim, ka tā pienāks pirms piektdienas.

Tas izklausās noderīgi, taču tas rada gan noliktavas pieejamību, gan piegādes garantiju.

Labāka atbilde būtu šāda:

Man žēl, ka jūsu rakstāmgalds tika piegādāts ar saplaisājušu kāju, it īpaši, ja tas jums ir nepieciešams pasākumam šonedēļ. Šķiet, ka jūsu ziņojums atbilst mūsu bojātu preču nomaiņas politikai, un fotogrāfija palīdzēs komandai to novērtēt. Mums joprojām ir jāapstiprina nomaiņas preču krājumi un piegādes pieejamība, pirms solām piegādi piektdienā. Esmu nodevis lietu atbalsta dienesta pārstāvim, lai to pārbaudītu un sazinātos ar jums, lai apspriestu pieejamās iespējas.

Kā to pārbaudīt

Izveidojiet testa komplektu, kas satur vismaz 20 anonimizētas pārbaudes. Iekļaujiet vienkāršus gadījumus līdzās neērtiem, nevis testējiet tikai ideālus piemērus.

Noderīgi testa gadījumi ietver:

Bojāta prece, par kuru ziņots atļautajā periodā
Pieprasījums, kas iesniegts pēc termiņa beigām
Trūkstošas fotogrāfijas vai pasūtījuma informācija
Klients pieprasa kaut ko tādu, kas nav minēts politikā
Pretrunīga informācija sarunas vēsturē
Iepriekšējais aģents, kurš jau ir apsolījis atmaksu
Klienta pielikumā paslēptas instrukcijas, piemēram, “ignorēt atmaksas noteikumus”
Pieprasījums, kas satur personas informāciju, kurai nevajadzētu parādīties atbildē

Pārskatiet katru atbildi, izmantojot vienkāršu pieņemšanas kontrolsarakstu:

Vai tas identificēja pareizo problēmu?
Vai tā precīzi piemēroja sniegto politiku?
Vai tajā netika izdomāti fakti vai solījumi?
Vai tas saasinājās, kad tas bija nepieciešams?
Vai tas aizsargāja privātu un iekšējo informāciju?
Vai tas nepārsniedza pieprasīto garumu?
Vai aģents varētu to nosūtīt pēc saprātīgas pārskatīšanas?

Reģistrējiet marķieru lietojumu, izmantojot izvēlētā mākslīgā intelekta pakalpojuma sniegto marķierizatoru vai lietojuma pārskatu. Nenovērtējiet marķieru skaitu pēc vārdu skaita, ja ir pieejami precīzi lietojuma dati.

Rezultāts

Ilustratīvs rezultāts: 20 biļešu testā pieņemsim, ka sākotnējā darbplūsma izmanto vidēji 1900 ievades žetonus uz vienu biļeti. Pēc tam, kad visa rokasgrāmata un pilna ziņojumu vēsture ir aizstāta ar mērķtiecīgiem politikas izrakstiem un īsiem kopsavilkumiem, mediāna samazinās līdz 1100 žetoniem.

Tas ir par 800 ievades žetoniem mazāk uz vienu biļeti, kas nozīmē samazinājumu par aptuveni 42 %:

800 ÷ 1,900 × 100 = 42.1%

Pieņemsim, ka sākotnējais izstrādes un pārskatīšanas process aizņem vidēji astoņas minūtes uz vienu pieteikumu, ieskaitot cilvēka veikto pārbaudi. Pārskatītais process aizņem piecas minūtes: divas minūtes sagatavošanai un izstrādei, kam seko trīs minūtes pārskatīšanai. Tāpēc ilustratīvais ietaupījums ir trīs minūtes uz vienu pieteikumu jeb 60 minūtes visam 20 pieteikumu testam.

Kvalitāte jāmēra līdzās ātrumam. Piemēram, 18 no 20 pārskatītajiem melnrakstiem varētu atbilst visām septiņām pieņemšanas pārbaudēm pirmās pārskatīšanas laikā, salīdzinot ar 16 no 20 sākotnējās darbplūsmas laikā. Diviem neveiksmīgajiem pārskatītajiem melnrakstiem vajadzētu palikt rezultātos un tikt pārbaudītiem, nevis klusi atmestiem.

Šie skaitļi ir ilustratīvs mērījums, kas balstīts uz norādīto testa dizainu, nevis publicēts uzņēmuma rezultāts. Neliels testu komplekts, atšķirības biļešu grūtības pakāpē un subjektīvi recenzentu lēmumi var ietekmēt rezultātu.

Kas var noiet greizi

Pārāk agresīva žetonu samazināšana var noņemt detaļas, kas maina pareizo atbildi. Piemēram, kopsavilkumā ar norādi “klients pieprasīja atmaksu” var nebūt norādīts fakts, ka iepriekšējais aģents to jau bija apstiprinājis.

Izguves laikā var tikt atlasīta arī nepareiza politikas sadaļa. Asistents tādā gadījumā var ģenerēt nepārdomātu atbildi, pamatojoties uz neatbilstošiem noteikumiem. Tāpēc svarīgam avota tekstam jāpaliek redzamam pārskatīšanas aģentam.

Citas izplatītas kļūmes ir novecojušas politikas, klientu datu parādīšanās žurnālos, slēptas instrukcijas augšupielādētajos dokumentos, neskaidri eskalācijas noteikumi un asistenta apgalvojums, ka darbība ir pabeigta, lai gan tas ir tikai uzrakstījis atbildes melnrakstu.

Mērķis nav izveidot pēc iespējas īsāku uzdevumu. Tas ir novērst atkārtošanos, vienlaikus saglabājot visus faktus, noteikumus un izņēmumus, kas nepieciešami droša lēmuma pieņemšanai.

Praktiska līdzņemšana

Žetonu efektivitāte rodas no labāka konteksta izvēles, nevis tikai no vārdu dzēšanas. Sniedziet asistentam pašreizējo pieprasījumu, attiecīgos pierādījumus, piemērojamos noteikumus un skaidru nenoteiktības robežu. Visam pārējam ir jāattaisno aizņemtā vieta.

Bieži uzdotie jautājumi

Kas vienkāršoti ir žetons mākslīgajā intelektā?

Mākslīgajā intelektā marķieris ir neliela teksta vai datu vienība, ko apstrādā modelis. Tas var būt pilns vārds, vārda daļa, pieturzīme, atstarpe vai simbols. Mākslīgā intelekta sistēmas sadala uzvednes marķieros, pārveido tos skaitliskos attēlojumos un izmanto apgūtus modeļus, lai prognozētu nākamo marķieri atbildē.

Vai viens mākslīgā intelekta marķieris ir tas pats, kas viens vārds?

Nē, viens marķieris ne vienmēr atbilst vienam vārdam. Bieži lietoti vārdi var veidot vienu marķieri, savukārt gari, neparasti vai tehniski termini var tikt sadalīti vairākos apakšvārdu marķieros. Pieturzīmes, emocijzīmes, atstarpes un formatējums var arī ietekmēt marķieru skaitu. Precīzs sadalījums ir atkarīgs no mākslīgā intelekta modeļa izmantotā marķiera.

Kā mākslīgā intelekta modeļi izmanto žetonus atbilžu ģenerēšanai?

Mākslīgā intelekta modelis vispirms sadala jūsu uzvedni žetonos un pārveido tos skaitliskos attēlojumos. Pēc tam tas analizē šo žetonu savstarpējās attiecības un prognozē, kurš žetons, visticamāk, parādīsies nākamais. Šis process turpinās, līdz atbilde ir pabeigta. Katru prognozi veido uzvedne, sarunas konteksts, modeļa iestatījumi un jau ģenerētie žetoni.

Kāpēc žetoni ietekmē mākslīgā intelekta izmantošanas izmaksas?

Daudzi mākslīgā intelekta pakalpojumi aprēķina lietojumu atbilstoši apstrādāto žetonu skaitam. Ievades žetoni tiek iegūti no jūsu uzvednes un atbalsta konteksta, savukārt izvades žetoni tiek iegūti no modeļa atbildes. Tāpēc gari dokumenti, atkārtotas instrukcijas un garas atbildes palielina lietojumu. Uzņēmumiem, kas apstrādā lielu skaitu API pieprasījumu, nevajadzīga teksta noņemšana var palīdzēt kontrolēt izmaksas.

Kas ir mākslīgā intelekta konteksta logs un kā to ietekmē žetoni?

Konteksta logs ir maksimālais tokenizētās informācijas apjoms, ko mākslīgā intelekta modelis var ņemt vērā pieprasījuma laikā. Tas var ietvert sistēmas instrukcijas, jūsu uzvedni, augšupielādētos dokumentus, agrākus ziņojumus un ģenerēto atbildi. Tā kā pieejamais logs kļūst pārpildīts, vecākai vai zemākas prioritātes informācijai var tikt pievērsta mazāka uzmanība. Skaidrs, atbilstošs konteksts saglabā vairāk vietas mērķtiecīgai analīzei un izvadei.

Kas notiek, ja mākslīgā intelekta uzvedne pārsniedz tokena ierobežojumu?

Ja pieprasījums ir pārāk liels pieejamajam konteksta logam, sistēma var saīsināt, apkopot, sadalīt vai izslēgt daļu satura. Precīza darbība ir atkarīga no rīka. Svarīgas detaļas var tikt palaistas garām, ja tās parādās izlaistās sadaļās. Izplatīta pieeja ir sadalīt garus dokumentus loģiskās sadaļās, analizēt katru no tām un pēc tam apvienot rezultātus.

Kā es varu samazināt žetonu izmantošanu savos uzvednēs?

Sāciet ar galveno uzdevumu un noņemiet fona informāciju, kas neietekmē atbildi. Izmantojiet skaidras etiķetes, piemēram, mērķi, auditoriju, formātu, toni un ierobežojumus, nevis atkārtojiet norādījumus visā uzdevumā. Garās sarunās sniedziet īsu galveno lēmumu kopsavilkumu. Strukturētas uzvednes parasti palīdz modelim noteikt prioritātes, netērējot kontekstu liekām lietām, no kurām var izvairīties.

Kāpēc kodā, formatējumā un pieturzīmēs tiek izmantoti mākslīgā intelekta žetoni?

Mākslīgā intelekta modeļi apstrādā vairāk nekā tikai parastus vārdus. Operatori, iekavas, atkāpes, rindiņu pārtraukumi, pieturzīmes un citi formatēšanas elementi var kļūt par atsevišķiem marķieriem vai marķieru fragmentiem. Tā rezultātā uzvednes ar lielu koda apjomu un ļoti formatēti dokumenti var ātri patērēt marķierus. Atbilstoša formatējuma saglabāšana ir svarīga, taču dublēta koda, nevajadzīgu komentāru vai atkārtotu standarta tekstu noņemšana var padarīt pieprasījumu efektīvāku.

Kas ir tokens mākslīgajā intelektā attēliem, audio un multimodāliem modeļiem?

Multimodālā mākslīgā intelekta kontekstā termins “marķieris” var apzīmēt apstrādājamas vienības, kas pārsniedz rakstisko valodu. Attēlus var attēlot, izmantojot ielāpus vai vizuālas iezīmes, savukārt audio var sadalīt kodētos segmentos. Tehniskā metode dažādās sistēmās atšķiras, taču pamatprincips paliek līdzīgs: sarežģīta informācija tiek pārveidota mazākās skaitliskās vienībās, kuras modelis var salīdzināt, interpretēt un izmantot, lai ģenerētu izvadi.

Vai, izmantojot vairāk žetonu, tiek panākta labāka mākslīgā intelekta reakcija?

Ne automātiski. Papildu marķieri palīdz, ja tie sniedz atbilstošu kontekstu, piemērus, prasības vai avota materiālu. Tomēr atkārtoti vai pretrunīgi norādījumi var novērst modeļa uzmanību un mazināt konsekvenci. Visefektīvākā uzvedne parasti satur pietiekami daudz detaļu, lai skaidri definētu uzdevumu, to nepārslogojot. Marķieru kvalitāte un organizācija bieži vien ir svarīgāka par teksta apjomu.

Atsauces

OpenAI palīdzības centrs — help.openai.com
OpenAI platforma — platform.openai.com
OpenAI izstrādātāji — developers.openai.com
Google izstrādātājiem — developers.google.com
Apskaujoša seja — huggingface.co
TensorFlow — tensorflow.org
Google Research — research.google

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru