Kā mākslīgā intelekta detektori var man palīdzēt rakstīšanas procesā?

Mākslīgā intelekta detektori var sniegt ieskatu par to, cik ļoti jūsu rakstītais atgādina mākslīgā intelekta ģenerēta teksta raksturīgos modeļus. Tas var palīdzēt jums pilnveidot rakstīšanas stilu, izvairīties no veidnēm un nodrošināt, ka jūsu darbs atspoguļo patiesu autorību.

Kas man jāzina par viltus pozitīviem rezultātiem, izmantojot mākslīgā intelekta detektorus?

Kļūdaini pozitīvi rezultāti var rasties, ja formāls vai tehnisks rakstīšanas stils, ne-dzimtās angļu valodas teksts vai pārāk tīrs teksts tiek atzīmēts kā mākslīgā intelekta līdzīgs. Ir svarīgi detektora rezultātu uzskatīt par signālu pārskatīšanai, nevis par galīgu secinājumu.

Vai ir kādi īpaši rakstīšanas stili, ar kuriem mākslīgā intelekta detektoriem ir grūtības?

Jā, mākslīgā intelekta detektoriem bieži vien ir grūtības ar ļoti formālu, tehnisku vai uz veidnēm balstītu rakstīšanu, jo šie stili var statistiski šķist līdzīgi mākslīgā intelekta ģenerētam saturam. Rakstīšanas stilu atšķirības var novest pie neprecīziem novērtējumiem.

Kas padara mākslīgā intelekta detektoru uzticamu?

Uzticams mākslīgā intelekta detektors samazina kļūdaini pozitīvu rezultātu skaitu, sniedz skaidrus skaidrojumus par saviem rezultātiem un demonstrē caurspīdīgumu. Tam vajadzētu sniegt konsekventus rezultātus dažādos rakstīšanas žanros un saglabāt efektivitāti pat tad, ja tekstā veic cilvēka rediģēšanu.

Kā interpretēt dažādus mākslīgā intelekta detektora rezultātus?

Rezultāti jāuztver kā riska signāli, nevis galīgi spriedumi. Zemāki rezultāti parasti norāda uz cilvēka rakstura pazīmēm, savukārt augstāki rezultāti liecina par mākslīgajam intelektam līdzīgiem rakstības modeļiem. Vidēji rezultāti var būt neskaidri, tāpēc ņemiet vērā papildu kontekstu.

Vai es varu uzticēties mākslīgā intelekta detektoriem svarīgu novērtējumu veikšanā?

Lai gan mākslīgā intelekta detektori var sniegt noderīgu ieskatu, tie nav perfekti un uz tiem nevajadzētu paļauties tikai svarīgu novērtējumu veikšanā. Ir svarīgi apvienot to atklājumus ar savu spriedumu un papildu satura pārskatīšanu.

Kā izpratne par mākslīgā intelekta noteikšanu uzlabo manu rakstīšanu?

Izprotot mākslīgā intelekta noteikšanu, jūs varat koncentrēties uz autentiskāka un daudzveidīgāka satura veidošanu. Šī izpratne palīdz izvairīties no bieži pieļautām kļūdām, kas varētu novest pie nepareizas interpretācijas noteikšanas rīkos, tādējādi uzlabojot jūsu rakstīšanas kvalitāti.

Kā darbojas mākslīgā intelekta detektori?

Īsa atbilde: mākslīgā intelekta detektori "nepierāda", kas kaut ko ir sarakstījis; tie novērtē, cik precīzi fragments atbilst pazīstamiem valodas modeļa modeļiem. Lielākā daļa paļaujas uz klasifikatoru, paredzamības signālu (apjukuma/pārsprāgstošuma), stilometrijas un retākos gadījumos ūdenszīmju pārbaužu apvienojumu. Ja paraugs ir īss, ļoti formāls, tehnisks vai to ir sarakstījis angļu valodas kā otrās valodas autors, uztveriet vērtējumu kā norādi pārskatīšanai, nevis spriedumu.

Galvenie secinājumi:

Varbūtība, nevis pierādījums: procentuālās daļas uztveriet kā “mākslīgā intelekta līdzības” riska signālus, nevis pārliecību.

Kļūdaini pozitīvi rezultāti: formāls, tehnisks, veidnēs balstīts vai nevietējā valodā rakstīts teksts bieži tiek nepareizi atzīmēts.

Metožu sajaukums: rīki apvieno klasifikatorus, sarežģītības/pārsprāgtības, stilometriju un neparastas ūdenszīmju pārbaudes.

Caurspīdīgums: dodiet priekšroku detektoriem, kas aptver virsmas diapazonus, pazīmes un nenoteiktību, nevis tikai vienu skaitli.

Apstrīdamība: Saglabājiet melnrakstus/piezīmes un procesa pierādījumus strīdu un apelāciju gadījumā.

Kā darbojas mākslīgā intelekta detektori? Infografika

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kāds ir labākais mākslīgā intelekta detektors?
Labāko mākslīgā intelekta noteikšanas rīku salīdzinājums pēc precizitātes, funkcijām un lietošanas gadījumiem.

🔗 Vai mākslīgā intelekta detektori ir uzticami?
Izskaidro uzticamību, viltus pozitīvus rezultātus un to, kāpēc rezultāti bieži atšķiras.

🔗 Vai Turnitin var noteikt mākslīgo intelektu?
Pilnīgs ceļvedis par Turnitin mākslīgā intelekta noteikšanu, ierobežojumiem un labāko praksi.

🔗 Vai QuillBot AI detektors ir precīzs?
Detalizēts precizitātes, stipro un vājo pušu, kā arī reālās pasaules testu pārskats.

1) Īsa ideja — ko īsti dara mākslīgā intelekta detektors ⚙️

Lielākā daļa mākslīgā intelekta detektoru "neķer mākslīgo intelektu" kā tīkls, kas ķer zivi. Tie dara kaut ko prozaiskāku:

Viņi novērtē varbūtību, ka teksta fragments izskatās tā, it kā tas būtu cēlies no valodas modeļa (vai arī to būtu ievērojami asistējis kāds valodas modelis). (Aptauja par LLM ģenerēta teksta noteikšanu; OpenAI)
Viņi salīdzina jūsu tekstu ar modeļiem, kas redzami apmācības datos (cilvēka raksts salīdzinājumā ar modeļa ģenerētu rakstību). (Aptauja par LLM ģenerēta teksta noteikšanu)
Viņi izvada rezultātu (bieži vien procentuālu), kas šķiet noteicošs… bet parasti tāds nav. (Turnitin rokasgrāmatas)

Būsim godīgi — lietotāja interfeiss rādīs kaut ko līdzīgu “92% mākslīgā intelekta”, un jūsu smadzenes iesauks: “Ak, laikam jau tas ir fakts.” Tas nav fakts. Tas ir modeļa minējums par cita modeļa pirkstu nospiedumiem. Kas ir nedaudz smieklīgi, līdzīgi kā suņi ošņā suņus 🐕🐕

2) Kā darbojas mākslīgā intelekta detektori: visizplatītākie “noteikšanas dzinēji” 🔍

Detektori parasti izmanto vienu no šīm pieejām (vai to kombināciju): (Aptauja par LLM ģenerēta teksta noteikšanu)

A) Klasifikatora modeļi (visizplatītākie)

Klasifikators tiek apmācīts, izmantojot marķētus piemērus:

Cilvēka rakstīti paraugi
AI ģenerēti paraugi
Dažreiz “hibrīdi” paraugi (cilvēka rediģēts mākslīgā intelekta teksts)

Tad tā apgūst modeļus, kas atdala grupas. Šī ir klasiska mašīnmācīšanās pieeja, un tā var būt pārsteidzoši laba… līdz brīdim, kad tā vairs nav. (Aptauja par LLM ģenerēta teksta noteikšanu)

B) Apjukuma un “pārsprāguma” vērtēšana 📈

Daži detektori aprēķina, cik “paredzams” ir teksts.

Apjukums: aptuveni, cik pārsteigts valodas modelis ir par nākamo vārdu. (Bostonas Universitāte — apjukuma ieraksti)
Zemāka neskaidrība var liecināt, ka teksts ir ļoti paredzams (kas var notikt ar mākslīgā intelekta izvadi). (DetectGPT)
“Burstiness” (saīsinājums) mēģina izmērīt teikumu sarežģītības un ritma variācijas. (GPTZero)

Šī pieeja ir vienkārša un ātra. To ir arī viegli sajaukt, jo arī cilvēki var rakstīt paredzami (sveiki, korporatīvie e-pasti). (OpenAI)

C) Stilometrija (raksta pirkstu nospiedumu noņemšana) ✍️

Stilometrija aplūko tādus modeļus kā:

vidējais teikuma garums
pieturzīmju stils
funkcijas vārdu biežums (the, and, but…)
vārdu krājuma daudzveidība
lasāmības rādītāji

Tas ir līdzīgi kā “rokraksta analīze”, izņemot tekstu. Dažreiz tas palīdz. Dažreiz tas ir līdzīgi kā saaukstēšanās diagnosticēšana, aplūkojot kāda cilvēka apavus. (Stilometrija un kriminālistika: literatūras apskats; Funkciju vārdi autorības norādīšanā)

D) Ūdenszīmju noteikšana (ja tāda ir) 🧩

Daži modeļu nodrošinātāji var iegult smalkus rakstus (“ūdenszīmes”) ģenerētajā tekstā. Ja detektors zina ūdenszīmes shēmu, tas var mēģināt to pārbaudīt. (Ūdenszīme lieliem valodu modeļiem; SynthID teksts)

Bet… ne visiem modeļiem ir ūdenszīme, ne visi izvades dati saglabā ūdenszīmi pēc rediģēšanas, un ne visiem detektoriem ir piekļuve slepenajai receptei. Tāpēc tas nav universāls risinājums. (Par ūdenszīmju uzticamību lieliem valodu modeļiem; OpenAI)

3) Kas veido labu mākslīgā intelekta detektora versiju ✅

“Labs” detektors (pēc manas pieredzes, testējot vairākus no tiem blakus redakcionālām darbplūsmām) nav tas, kas kliedz visskaļāk. Tas ir tas, kas uzvedas atbildīgi.

Lūk, kas padara AI detektoru stabilu:

Kalibrēta ticamība: 70% vajadzētu nozīmēt kaut ko konsekventu, nevis rokas vicināšanu. (Aptauja par LLM ģenerēta teksta noteikšanu)
Zems kļūdaini pozitīvu rezultātu skaits: nevajadzētu atzīmēt tekstu, kas nav dzimtā angļu valoda, juridiskos rakstus vai tehniskās rokasgrāmatas kā “mākslīgo intelektu” tikai tāpēc, ka tās ir tīras. (Stenfordas HAI; Liang et al. (arXiv))
Caurspīdīgas robežas: tai jāpieļauj nenoteiktība un jāparāda diapazoni, nevis jāizliekas, ka tā ir viszinoša. (OpenAI; Turnitin)
Domēna atpazīšana: detektoriem, kas apmācīti ikdienas emuāros, bieži vien ir grūtības ar akadēmisku tekstu un otrādi. (Aptauja par LLM ģenerēta teksta noteikšanu)
Īsu tekstu apstrāde: labi rīki ļauj izvairīties no pārāk pārliecinošiem vērtējumiem nelielos paraugos (rindkopa nav vesels universs). (OpenAI; Turnitin)
Revīzijas jutība: tai vajadzētu tikt galā ar cilvēka veiktu rediģēšanu, nekavējoties neradot bezjēdzīgus rezultātus. (Aptauja par LLM ģenerēta teksta noteikšanu)

Labākie, ko esmu redzējis, mēdz būt nedaudz pazemīgi. Sliktākie uzvedas tā, it kā lasītu domas 😬

4) Salīdzināšanas tabula — izplatītākie mākslīgā intelekta detektoru “veidi” un to priekšrocības 🧾

Zemāk ir sniegts praktisks salīdzinājums. Tie nav zīmolu nosaukumi — tās ir galvenās kategorijas, ar kurām jūs saskarsieties. (Aptauja par LLM ģenerēta teksta noteikšanu)

Instrumenta tips (aptuveni)	Labākā auditorija	Cenas sajūta	Kāpēc tas darbojas (dažreiz)
Perplexity Checker Lite	Skolotāji, ātras pārbaudes	Brīvības pieskaņa	Ātrs paredzamības signāls, taču var būt arī saraustīts…
Klasifikatora skeneris Pro	Redaktori, personāla vadība, atbilstības nodrošināšana	Abonements	Apgūst modeļus no marķētiem datiem — pieņemami darbojas ar vidēja garuma tekstu
Stilometrijas analizators	Pētnieki, tiesu medicīnas speciālisti	$$$ vai niša	Salīdzina pirkstu nospiedumu rakstīšanu — savdabīgs, bet noderīgs garākā formā
Ūdenszīmju meklētājs	Platformas, iekšējās komandas	Bieži komplektā	Spēcīgs, ja ir ūdenszīme — ja tās nav, tas būtībā ir plecu paraustīšana
Hibrīda uzņēmuma komplekts	Lielas organizācijas	Līgumi par katru vietu	Apvieno vairākus signālus — labāks pārklājums, vairāk regulēšanas pogu (un vairāk veidu, kā nepareizi konfigurēt, ups)

Ievērojiet kolonnu “cenas sajūta”. Jā, tas nav zinātnisks apgalvojums. Bet tas ir atklāti 😄

5) Detektoru meklētie galvenie signāli — “ziņotāji” 🧠

Lūk, ko daudzi detektori mēģina izmērīt zem pārsega:

Paredzamība (tokenu varbūtība)

Valodu modeļi ģenerē tekstu, paredzot iespējamos nākamos marķierus. Tas parasti rada:

vienmērīgākas pārejas
mazāk pārsteidzošu vārdu izvēles
mazāk dīvainu pieskares punktu (ja vien netiek prasīts)
konsekvents tonis (Bostonas Universitāte — apjukuma ieraksti; DetectGPT)

Cilvēki, savukārt, bieži vien vairāk zigzaga veidā kļūdās. Mēs paši sev pretrunājam, pievienojam nejaušus komentārus, lietojam nedaudz nepareizas metaforas — piemēram, salīdzinot mākslīgā intelekta detektoru ar tosteri, kas vērtē dzeju. Šī metafora ir slikta, bet jūs sapratāt.

Atkārtošanās un struktūras modeļi

Mākslīgā intelekta rakstīšana var parādīt smalkas atkārtošanās:

atkārtotu teikumu sastatnes (“Noslēgumā…”, “Papildus…”, “Turklāt…”)
līdzīga garuma rindkopas
konsekventa tempēšana (aptauja par LLM ģenerēta teksta noteikšanu)

Bet arī - daudzi cilvēki raksta šādi, it īpaši skolā vai korporatīvajā vidē. Tātad atkārtošana ir pavediens, nevis pierādījums.

Pārāk skaidra un “pārāk tīra” proza ✨

Šis ir īpatnējs gadījums. Daži detektori netieši uzskata “ļoti tīru rakstību” par aizdomīgu. (OpenAI)

Kas ir neērti, jo:

labi rakstnieki pastāv
redaktori pastāv
pareizrakstības pārbaude pastāv

Tātad, ja jūs domājat par to, kā darbojas mākslīgā intelekta detektori, daļa no atbildes ir šāda: dažreiz tie atalgo rupjību. Kas ir… nedaudz apgriezti.

Semantiskais blīvums un vispārīga frāze

Detektori var atzīmēt tekstu, kas šķiet:

pārāk vispārīgs
maz konkrētu dzīves detaļu
liels uzsvars uz līdzsvarotiem, neitrāliem apgalvojumiem (aptauja par LLM ģenerēta teksta noteikšanu)

Mākslīgais intelekts bieži rada saturu, kas izklausās saprātīgs, bet nedaudz mākslīgs. Piemēram, viesnīcas numurs, kas izskatās jauki, bet bez personības 🛏️

6) Klasifikatora pieeja — kā tā tiek apmācīta (un kāpēc tā nedarbojas) 🧪

Klasifikatora detektors parasti tiek apmācīts šādi:

Apkopojiet cilvēka teksta datu kopu (esejas, raksti, forumi utt.)
Ģenerēt mākslīgā intelekta tekstu (vairākas uzvednes, stili, garumi)
Marķējiet paraugus
Apmācīt modeli, lai tos atdalītu, izmantojot funkcijas vai iegultos elementus
Validējiet to ar slēptiem datiem
Nosūti to… un tad realitāte tam ietriecas sejā (Aptauja par LLM ģenerēta teksta atpazīšanu)

Kāpēc realitāte to sit:

Domēna nobīde: apmācības dati neatbilst reālajam lietotāja rakstītajam
Modeļa nobīde: jaunās paaudzes modeļi neuzvedas tāpat kā datu kopā esošie.
Rediģēšanas efekti: cilvēku veiktās rediģēšanas var noņemt acīmredzamus modeļus, bet saglabāt smalkus.
Valodas variācijas: dialekti, angļu valodas kā otrās valodas rakstīšana un formālie stili tiek nepareizi nolasīti (Apsekojums par LLM ģenerēta teksta noteikšanu; Liang et al. (arXiv))

Esmu redzējis detektorus, kas paši savā demonstrācijas komplektā bija “izcili”, bet pēc tam, rakstot reālā darba vietā, sabruka. Tas ir kā apmācīt ostīšanas suni tikai ar vienas markas cepumiem un sagaidīt, ka tas atradīs visas uzkodas pasaulē 🍪

7) Apjukums un strauja satraukuma sajūta — matemātikas saīsne 📉

Šī detektoru saime parasti balstās uz valodas modeļa vērtēšanu:

Viņi izvada jūsu tekstu caur modeli, kas novērtē katra nākamā marķiera iespējamību.
Viņi aprēķina kopējo “pārsteigumu” (apjukumu). (Bostonas Universitāte — apjukuma ieraksti)
Viņi var pievienot variācijas rādītājus (“pārsprāgstošu ritmu”), lai redzētu, vai ritms šķiet cilvēcisks. (GPTZero)

Kāpēc tas dažreiz darbojas:

Neapstrādāts mākslīgā intelekta teksts var būt ārkārtīgi vienmērīgs un statistiski paredzams (DetectGPT)

Kāpēc tas neizdodas:

īsi paraugi ir trokšņaini
formāla rakstīšana ir paredzama
tehniskā rakstīšana ir paredzama
svešvalodas rakstība var būt paredzama
stipri rediģēts mākslīgā intelekta teksts var izskatīties cilvēcisks (OpenAI; Turnitin)

Tātad, kā darbojas mākslīgā intelekta detektori, dažreiz atgādina ātruma lielgabalu, kas mulsina velosipēdistus un motociklus. Viens un tas pats ceļš, dažādi dzinēji 🚲🏍️

8) Ūdenszīmes — ideja par “pirkstu nospiedumu tintē” 🖋️

Ūdenszīmju lietošana izklausās pēc tīra risinājuma: iezīmēt mākslīgā intelekta tekstu ģenerēšanas laikā un pēc tam to noteikt vēlāk. (Ūdenszīme lieliem valodu modeļiem; SynthID teksts)

Praksē ūdenszīmes var būt trauslas:

pārfrāzēšana var tos vājināt
tulkojums var tos salauzt
daļēja citēšana var tos noņemt
Vairāku avotu sajaukšana var izplūdināt modeli (Par ūdenszīmju uzticamību lieliem valodu modeļiem)

Turklāt ūdenszīmju noteikšana darbojas tikai tad, ja:

tiek izmantota ūdenszīme
detektors zina, kā to pārbaudīt
teksts nav daudz pārveidots (OpenAI; SynthID Text)

Tātad, jā, ūdenszīmes var būt spēcīgas, taču tās nav universāla policijas nozīmīte.

9) Viltus pozitīvi rezultāti un to rašanās iemesls (sāpīgā daļa) 😬

Tas ir pelnījis savu atsevišķu sadaļu, jo tieši tur rodas vislielākās pretrunas.

Biežākie viltus pozitīvie trigeri:

Ļoti formāls tonis (akadēmisks, juridisks, atbilstības rakstīšanas darbs)
Nedzimtā angļu valoda (vienkāršākas teikumu struktūras var izskatīties “parauga veidā”)
Rakstīšana, kuras pamatā ir veidnes (motivācijas vēstules, SOP, laboratorijas ziņojumi)
Īsi teksta paraugi (nav pietiekams signāls)
Tēmas ierobežojumi (dažas tēmas piespiež atkārtotu frāzēšanu) (Liang et al. (arXiv); Turnitin)

Ja kādreiz esat redzējuši, ka kāds tiek atzīmēts par pārāk labu rakstīšanu… jā. Tas notiek. Un tas ir nežēlīgi.

Detektora vērtējums jāapstrādā šādi:

dūmu detektors, nevis tiesas spriedums 🔥
Tas pasaka “varbūt pārbaudīt”, nevis “lieta slēgta”. (OpenAI; Turnitin)

10) Kā interpretēt detektora rezultātus kā pieaugušajam 🧠🙂

Lūk, praktisks veids, kā nolasīt rezultātus:

Ja rīks sniedz vienu procentuālo vērtību

Uztveriet to kā aptuvenu riska signālu:

0-30%iespējams, cilvēka darbs vai stipri rediģēts
30-70%neskaidra zona — nepieņemiet neko
70–100 %: ticamāki mākslīgajam intelektam līdzīgi modeļi, taču tie joprojām nav pierādījumi (Turnitin rokasgrāmatas)

Pat augsti rezultāti var būt nepareizi, īpaši attiecībā uz:

standartizēta rakstīšana
noteikti žanri (kopsavilkumi, definīcijas)
ESL rakstīšana (Liang et al. (arXiv))

Meklējiet skaidrojumus, ne tikai skaitļus

Labāki detektori nodrošina:

izceltie laidumi
funkciju piezīmes (paredzamība, atkārtošanās utt.)
ticamības intervāli vai nenoteiktības valoda (aptauja par LLM ģenerēta teksta noteikšanu)

Ja rīks atsakās kaut ko paskaidrot un vienkārši uzspiež jums pa pieri skaitli… es tam neuzticos. Jums arī nevajadzētu.

11) Kā darbojas mākslīgā intelekta detektori: vienkāršs mentālais modelis 🧠🧩

Ja vēlaties tīru ēdienu līdzņemšanai, izmantojiet šo mentālo modeli:

Mākslīgā intelekta detektori meklē statistiskus un stilistiskus modeļus, kas ir izplatīti mašīnģenerētā tekstā. (Aptauja par LLM ģenerēta teksta noteikšanu)
Viņi salīdzina šos modeļus ar to, ko ir iemācījušies no apmācības piemēriem. (Aptauja par LLM ģenerēta teksta noteikšanu)
Tie izvada varbūtībai līdzīgu minējumu, nevis faktisku izcelsmes stāstu. (OpenAI)
Minējums ir jutīgs pret žanru, tēmu, garumu, rediģēšanu un detektora apmācības datiem. (Aptauja par LLM ģenerēta teksta noteikšanu)

Citiem vārdiem sakot, mākslīgā intelekta detektori darbojas tā, ka tie "vērtē līdzību", nevis autorību. Līdzīgi kā teikt, ka kāds izskatās pēc sava brālēna. Tas nav tas pats, kas DNS tests... un pat DNS testiem ir robežgadījumi.

12) Praktiski padomi, kā samazināt nejaušu karodziņu skaitu (nespēlējot spēles) ✍️✅

Nevis "kā apmānīt detektorus". Drīzāk kā rakstīt tā, lai atspoguļotu īsto autorību un izvairītos no nejaušām kļūdām.

Pievienojiet konkrētu informāciju: faktiski izmantoto jēdzienu nosaukumus, veiktās darbības, apsvērtos kompromisus
Izmantojiet dabisko variāciju: kombinējiet īsus un garus teikumus (tāpat kā cilvēki domāšanas laikā)
Iekļaujiet reālus ierobežojumus: laika ierobežojumus, izmantotos rīkus, kas nogāja greizi, ko jūs darītu citādi
Izvairieties no pārāk sakarīga formulējuma: nomainiet vārdu “Turklāt” ar kaut ko tādu, ko jūs patiesībā teiktu
Saglabājiet melnrakstus un piezīmes: strīda gadījumā procesa pierādījumi ir svarīgāki par intuīciju

Patiesībā labākā aizsardzība ir vienkārši… būt patiesam. Nepilnīgi patiesam, nevis “ideāli patiesam” kā “brošūrai”.

Noslēguma piezīmes 🧠✨

Mākslīgā intelekta detektori var būt vērtīgi, taču tie nav patiesības mašīnas. Tie ir modeļu saskaņotāji, kas apmācīti ar nepilnīgiem datiem un darbojas pasaulē, kurā rakstīšanas stili pastāvīgi pārklājas. (OpenAI; Aptauja par LLM ģenerēta teksta noteikšanu)

Īsumā:

Detektori paļaujas uz klasifikatoriem, perpleksiju/pārsprāgstošu raksturu, stilometriju un dažreiz ūdenszīmēm 🧩 (Aptauja par LLM ģenerēta teksta noteikšanu)
Viņi novērtē “mākslīgā intelekta līdzību”, nevis noteiktību (OpenAI)
Kļūdaini pozitīvi rezultāti bieži rodas formālā, tehniskā vai ne-dzimtās valodas rakstībā 😬 (Liang et al. (arXiv); Turnitin)
Izmantojiet detektora rezultātus kā pamudinājumu pārskatīšanai, nevis spriedumu (Turnitin)

Un jā… ja kāds atkal jautā, kā darbojas mākslīgā intelekta detektori, jūs varat viņam atbildēt: “Viņi min, balstoties uz modeļiem – dažreiz gudri, dažreiz muļķīgi, vienmēr ierobežoti.”

Reālās dzīves piemērs: atzīmēta studenta esejas pārskatīšana bez steigas izteikt spriedumu 🧑🏫

Scenārijs

Iedomājieties, ka universitātes rakstīšanas pasniedzējs saņem 1200 vārdu garu vēstures eseju, ko mākslīgā intelekta detektors atzīmē kā “86% ticams mākslīgais intelekts”. Eseja ir formāla, kārtīgi strukturēta un balstās uz atkārtotām frāzēm, piemēram, “tas liek domāt, ka” un “to var apgalvot”. No pirmā acu uzmetiena tā var šķist aizdomīga.

Taču students ir angļu valodas kā otrās valodas rakstnieks, izmantoja stingru esejas veidni no kursa un rediģēja melnrakstu ar gramatikas pārbaudes programmatūru. Citiem vārdiem sakot, šis ir tieši tāds gadījums, kad detektora vērtējumam vajadzētu izraisīt pārskatīšanu, nevis sodu.

Mērķis nav "pieķert" studentu. Mērķis ir izlemt, vai rezultātu apstiprina citi pierādījumi.

Kas recenzentam ir nepieciešams

Pirms jebkāda sprieduma pieņemšanas pasniedzējs apkopo:

Detektora ziņojums, tostarp izceltās daļas, ja tādas ir pieejamas
Esejas kopsavilkums un vērtēšanas rubrika
Studenta melnraksta vēsture, piezīmes, izklāsts vai bibliogrāfija
Visi atļautie rakstīšanas atbalsta rīki, kas uzskaitīti kursa politikā
Viens vai divi iepriekšējie rakstiskie paraugi no tā paša studenta, ja to atļauj politika
Īss studenta skaidrojums par viņa rakstīšanas procesu

Tas ir svarīgi, jo detektors redz tikai teksta galīgo versiju. Tas nezina, vai skolēns četras dienas strādāja pie teksta melnraksta, izmantoja veidni, kopēja kursa frāzes, tulkoja piezīmes vai pārskatīja tekstu, izmantojot atsauksmes.

Instrukcijas piemērs

Pasniedzējs, izvērtējot gadījumu, varētu izmantot šo atkārtošanas norādījumu:

Izskatiet šo eseju kā rakstīšanas procesa pārbaudi, nevis kā pierādījumu mākslīgā intelekta izmantošanai. Salīdziniet detektora svarīgākos punktus ar studenta piezīmēm, melnraksta vēsturi, avotu sarakstu un iepriekšējo rakstīšanas paraugu. Nosakiet, kuras rindkopas ir patiesi aizdomīgas un kuras var būt vienkārši formālas, veidotas no veidnēm vai ietekmētas ar angļu valodas kā otrās valodas apguvi. Sadaliet pierādījumus trīs grupās: detektora signāls, rakstīšanas procesa pierādījumi un cilvēka spriedums. Neiesakiet disciplinārsodu, ja vien nav skaidru pierādījumu, kas pārsniedz detektora vērtējumu.

Kā to pārbaudīt

Godīgam pārskatīšanas procesam varētu izmantot trīs vienkāršas pārbaudes:

Palūdziet skolēnam mutiski paskaidrot divas rindkopas.
Ja viņi var izskaidrot argumentu, avotus un to, kāpēc viņi to formulēja šādi, tas ir vērtīgs procesa pierādījums.
Salīdziniet atzīmētās sadaļas ar esejas veidni.
Ja detektors izceļ galvenokārt veidnes stila frāzes, rezultāts, iespējams, reaģē uz struktūru, nevis autorību.
Atkārtojiet tikai garākas sadaļas, nevis mazus fragmentus
. Viena rindkopa var būt trokšņaina. 600–900 vārdu paraugs parasti sniedz jēgpilnāku signālu nekā trīs atsevišķi teikumi.

Rezultāts

Ilustratīvs rezultāts: Piecu eseju atkārtošanas uzdevumā pasniedzējs mēra procesa laiku pirms un pēc šīs darbplūsmas izmantošanas.

Pirms darbplūsmas katra atzīmētā eseja pārskatīšanai bija nepieciešamas aptuveni 35 minūtes, jo pasniedzējam bija jāizlemj, ko pārbaudīt no jauna.

Pēc darbplūsmas izmantošanas katra pārskatīšana aizņēma aptuveni 18 minūtes:

5 minūtes, lai nolasītu detektora svarīgākos rezultātus
6 minūtes melnrakstu, piezīmju un avotu pārbaudei
4 minūtes, lai salīdzinātu iepriekšējo rakstīšanas vai veidņu valodu
3 minūtes īsas atsauksmes rakstīšanai

Tas ir aptuveni 17 minūšu ietaupījums uz vienu eseju vai 85 minūtes uz piecām atzīmētajām esejām. Šo rādītāju ir viegli pārbaudīt: nosakiet katras pārskatīšanas laiku, saskaitiet, cik lietu bija jārisina, un reģistrējiet, vai galīgais lēmums balstījās tikai uz detektora rezultātu vai uz pamatojošiem pierādījumiem.

Labāks panākumu rādītājs nav "cik daudz studentu tika pieķerti". Tas ir tas, cik daudz apšaubāmu rezultātu tika konsekventi pārskatīti, ar skaidriem pierādījumiem un mazāk pārsteidzīgiem pieņēmumiem.

Kas var noiet greizi

Lielākā kļūda ir uztvert detektora procentuālo daļu kā lēmumu. “86% mākslīgā intelekta iespējamība” izklausās oficiāli, taču tas joprojām var būt nepareizi.

Citas izplatītas kļūdas ir šādas:

Pārbauda tikai galīgo eseju un ignorē melnrakstus
Sodīt noslīpētu angļu valodas kā otrās valodas rakstīšanu, jo tā izskatās “pārāk gluda”
Izmantojot vienu detektoru tā, it kā tas būtu kriminālistikas instruments
Nelielu fragmentu apstrāde un rezultāta uzskatīšana par ticamu
Nespējot pateikt studentiem, kādus pierādījumus viņi var sniegt
Aizmirstot, ka gramatikas rīki, veidnes un atsauksmes var mainīt stilu

Labam pārskatīšanas procesam ir jāaizsargā arī privātums. Studentiem nevajadzētu lūgt augšupielādēt privātas piezīmes, personiskus ziņojumus vai nesaistītus dokumentus, ja vien politika to nepārprotami neatļauj.

Praktiska līdzņemšana

Izmantojiet mākslīgā intelekta detektorus kā triāžas rīku, nevis patiesības mašīnu. Spēcīgs process apvieno vērtējumu ar melnrakstiem, avotu pārbaudēm, rakstīšanas vēsturi, studentu skaidrojumiem un cilvēka spriedumu. Tas skolām, redaktoriem un recenzentiem sniedz kaut ko daudz vērtīgāku par biedējošu procentuālo daļu: lēmumu, ko viņi var pārliecinoši aizstāvēt.

Bieži uzdotie jautājumi

Kā praktiski darbojas mākslīgā intelekta detektori?

Lielākā daļa mākslīgā intelekta detektoru "nepierāda" autorību. Tie novērtē, cik lielā mērā jūsu teksts līdzinās valodu modeļu parasti ģenerētiem modeļiem, un pēc tam izvada varbūtībai līdzīgu vērtējumu. Zem pārsega tie var izmantot klasifikatoru modeļus, paredzamības vērtēšanu sarežģītības stilā, stilometrijas funkcijas vai ūdenszīmju pārbaudes. Rezultātu vislabāk uzskatīt par riska signālu, nevis galīgu spriedumu.

Kādus signālus rakstībā meklē mākslīgā intelekta detektori?

Bieži sastopamas pazīmes ir paredzamība (cik “pārsteigts” modelis ir par jūsu nākamajiem vārdiem), atkārtošanās teikumu sastatnēs, neparasti konsekvents temps un vispārīgas frāzes ar zemu konkrētu detaļu līmeni. Daži rīki analizē arī stilometrijas marķierus, piemēram, teikuma garumu, pieturzīmju lietošanas paradumus un funkcionālo vārdu biežumu. Šīs pazīmes var pārklāties ar cilvēka rakstīto, īpaši formālos, akadēmiskos vai tehniskos žanros.

Kāpēc mākslīgā intelekta detektori cilvēka rakstīto tekstu atzīmē kā mākslīgo intelektu?

Kļūdaini pozitīvi rezultāti rodas, ja cilvēka rakstīts teksts izskatās statistiski “gluds” vai līdzīgs veidnei. Formāls tonis, atbilstības stila formulējums, tehniski skaidrojumi, īsi paraugi un angļu valoda, kas nav dzimtā valoda, var tikt kļūdaini interpretēta kā mākslīgā intelekta teksts, jo tie samazina variācijas. Tāpēc tīra, labi rediģēta rindkopa var izraisīt augstu vērtējumu. Detektors salīdzina līdzību, nevis apstiprina izcelsmi.

Vai perpleksitātes un "pārsprādziena" detektori ir uzticami?

Uz sarežģītību balstītas metodes var darboties, ja teksts ir neapstrādāts, ļoti paredzams mākslīgā intelekta rezultāts. Taču tās ir trauslas: īsas rindkopas ir trokšņainas, un daudzi likumīgi cilvēku radīti žanri ir dabiski paredzami (kopsavilkumi, definīcijas, korporatīvie e-pasti, rokasgrāmatas). Rediģēšana un pulēšana var arī dramatiski mainīt vērtējumu. Šie rīki ir piemēroti ātrai atlasei, nevis lēmumiem par augstām likmēm.

Kāda ir atšķirība starp klasifikatora detektoriem un stilometrijas rīkiem?

Klasifikatoru detektori mācās no marķētām cilvēka un mākslīgā intelekta (un dažreiz arī hibrīda) teksta datu kopām un paredz, kurai grupai jūsu teksts visvairāk līdzinās. Stilometrijas rīki koncentrējas uz “pirkstu nospiedumu” rakstīšanu, piemēram, vārdu izvēles modeļiem, funkciju vārdiem un lasāmības signāliem, kas var būt informatīvāki garās formas analīzē. Abas pieejas cieš no domēna nobīdes un var rasties grūtības, ja rakstīšanas stils vai tēma atšķiras no to apmācības datiem.

Vai ūdenszīmes uz visiem laikiem atrisina mākslīgā intelekta noteikšanu?

Ūdenszīmes var būt spēcīgas, ja modelis tās izmanto un detektors zina ūdenszīmes shēmu. Patiesībā ne visi pakalpojumu sniedzēji izmanto ūdenszīmi, un izplatītas transformācijas — pārfrāzēšana, tulkošana, daļēja citēšana vai avotu sajaukšana — var vājināt vai salauzt modeli. Ūdenszīmju noteikšana ir spēcīga šauros gadījumos, kad visa ķēde sakrīt, taču tā nav universāla.

Kā man jāinterpretē “X% AI” rādītājs?

Uztveriet vienu procentuālo daļu kā aptuvenu “mākslīgā intelekta līdzības” rādītāju, nevis mākslīgā intelekta autorības pierādījumu. Vidēja diapazona rezultāti ir īpaši neskaidri, un pat augsti rezultāti standartizētā vai formālā rakstībā var būt nepareizi. Labāki rīki sniedz skaidrojumus, piemēram, iezīmētus diapazonus, piezīmes par funkcijām un nenoteiktības formulējumu. Ja detektors pats sevi nepaskaidro, neuztveriet skaitli kā autoritatīvu.

Kas padara AI detektoru labu skolām vai redakcionālām darbplūsmām?

Stabils detektors ir kalibrēts, samazina kļūdaini pozitīvu rezultātu skaitu un skaidri norāda ierobežojumus. Tam vajadzētu izvairīties no pārāk pārliecinātiem apgalvojumiem par īsiem paraugiem, darboties dažādās jomās (akadēmiskajā, emuāru un tehniskajā jomā) un saglabāt stabilitāti, kad cilvēki pārskata tekstu. Visatbildīgākie rīki uzvedas ar pazemību: tie piedāvā pierādījumus un nenoteiktību, nevis darbojas kā domu lasītāji.

Kā es varu samazināt nejaušu mākslīgā intelekta karodziņu skaitu, "neietekmējot" sistēmu?

Koncentrējieties uz autentiskām autorības pazīmēm, nevis trikiem. Pievienojiet konkrētus aprakstus (veiktos soļus, ierobežojumus, kompromisus), dabiski mainiet teikumu ritmu un izvairieties no pārāk šabloniskām pārejām, kuras parasti neizmantojat. Saglabājiet melnrakstus, piezīmes un pārskatīšanas vēsturi — strīdos procesa pierādījumi bieži vien ir svarīgāki par detektora rezultātu. Mērķis ir skaidrība ar personību, nevis perfekta brošūras proza.

Atsauces

Datorlingvistikas asociācija (ACL antoloģija) — aptauja par LLM ģenerēta teksta noteikšanu — aclanthology.org
OpenAI — jauns mākslīgā intelekta klasifikators mākslīgā intelekta rakstīta teksta apzīmēšanai — openai.com
Turnitin rokasgrāmatas — mākslīgā intelekta rakstīšanas noteikšana klasiskajā atskaites skatā — guides.turnitin.com
Turnitin rokasgrāmatas — mākslīgā intelekta rakstīšanas noteikšanas modelis — guides.turnitin.com
Turnitin — izpratne par viltus pozitīviem rezultātiem mūsu mākslīgā intelekta rakstīšanas noteikšanas iespējās — turnitin.com
arXiv — DetectGPT — arxiv.org
Bostonas Universitāte — Apjukuma raksti — cs.bu.edu
GPTZero — Apjukums un eksplozija: kas tas ir? — gptzero.me
PubMed Central (NCBI) - Stilometrija un kriminālistika: literatūras apskats - ncbi.nlm.nih.gov
Datorlingvistikas asociācija (ACL antoloģija) — Funkciju vārdi autorības atribucijā — aclanthology.org
arXiv — ūdenszīme lieliem valodu modeļiem — arxiv.org
Google mākslīgais intelekts izstrādātājiem — SynthID teksts — ai.google.dev
arXiv — Par ūdenszīmju uzticamību lielo valodu modeļos — arxiv.org
OpenAI — Izpratne par to, ko mēs redzam un dzirdam tiešsaistē — openai.com
Stenfordas Universitātes HAI — mākslīgā intelekta detektori ir neobjektīvi pret rakstniekiem, kuru dzimtā valoda nav angļu — hai.stanford.edu
arXiv — Liang et al. — arxiv.org

Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru