Kā izveidot mākslīgo intelektu savā datorā

Kā izveidot mākslīgo intelektu savā datorā. Pilnīga rokasgrāmata.

Labi, tātad jūs interesē “mākslīgā intelekta” izveide. Nevis Holivudas izpratnē, kur tas apsver eksistenci, bet gan tāda, ko var darbināt klēpjdatorā un kas izdara prognozes, šķiro lietas un varbūt pat mazliet tērzē. Šī rokasgrāmata par to, kā izveidot mākslīgo intelektu datorā, nekā aizvest uz kaut ko tādu, kas faktiski darbojas lokāli . Sagaidiet īsceļus, tiešus viedokļus un reizēm arī novirzes, jo, būsim reāli, meistarošana nekad nav tīra.

Raksti, kurus jūs varētu vēlēties izlasīt pēc šī raksta:

🔗 Kā izveidot mākslīgā intelekta modeli: pilns darbību apraksts
Skaidrs mākslīgā intelekta modeļa izveides sadalījums no sākuma līdz beigām.

🔗 Kas ir simboliskais mākslīgais intelekts: viss, kas jums jāzina
Apgūstiet simboliskā mākslīgā intelekta pamatus, vēsturi un mūsdienu pielietojumu.

🔗 Datu glabāšanas prasības mākslīgajam intelektam: kas jums nepieciešams
Izprotiet krātuves vajadzības efektīvām un mērogojamām mākslīgā intelekta sistēmām.


Kāpēc tagad uztraukties? 🧭

Jo laikmets, kad “tikai Google mēroga laboratorijas var nodarboties ar mākslīgo intelektu”, ir pagājis. Mūsdienās ar parastu klēpjdatoru, dažiem atvērtā pirmkoda rīkiem un neatlaidību var izveidot mazus modeļus, kas klasificē e-pastus, apkopo tekstu vai atzīmē attēlus. Nav nepieciešams datu centrs. Jums tikai nepieciešams:

  • plāns,

  • tīra iekārta,

  • un mērķis, kuru vari pabeigt, nevēloties izmest mašīnu pa logu.


Kas padara šo sekošanas vērtu ✅

Cilvēki, kas jautā “Kā datorā izveidot mākslīgo intelektu”, parasti nevēlas doktora grādu. Viņi vēlas kaut ko tādu, ko paši var vadīt. Labs plāns ietver dažas lietas:

  • Sāciet ar mazumiņu : klasificējiet noskaņojumu, nevis "risiniet intelektu".

  • Reproducējamība : conda vai venv , lai jūs varētu rīt atjaunot bez panikas.

  • Aparatūras godīgums : centrālie procesori ir piemēroti scikit-learning, grafiskie procesori — dziļajiem tīkliem (ja paveicas) [2][3].

  • Tīri dati : nav nepareizi marķēta nevēlama satura; vienmēr sadalīti grupās “train”/“derīgi”/“testa”.

  • Nozīmīgas metrikas : precizitāte, precizitāte, atcerēšanās spēja, F1. Nelīdzsvarotības gadījumā ROC-AUC/PR-AUC [1].

  • Kopīgošanas veids : neliela API, CLI vai demonstrācijas lietotne.

  • Drošība : nav aizdomīgu datu kopu, nav privātas informācijas noplūžu, skaidri norādiet riskus [4].

Sakārtojiet tos pareizi, un pat jūsu “mazais” modelis būs īsts.


Ceļvedis, kas neizskatās biedējoši 🗺️

  1. Izvēlieties nelielu problēmu + vienu metriku.

  2. Instalējiet Python un dažas galvenās bibliotēkas.

  3. Izveidojiet tīru vidi (vēlāk jūs sev pateiksieties).

  4. Ielādējiet savu datu kopu un sadaliet to pareizi.

  5. Apmāciet muļķīgu, bet godīgu bāzes līniju.

  6. Izmēģiniet neironu tīklu tikai tad, ja tas sniedz pievienoto vērtību.

  7. Iepakojiet demonstrāciju.

  8. Veiciet dažas piezīmes nākotnē — jūs jums pateiksieties.


Minimālais komplekts: nepārspīlējiet 🧰

  • Python : iegūlieties no python.org.

  • Vide : Conda vai venv ar pip.

  • Piezīmju grāmatiņas : Jupyter spēlēm.

  • Redaktors : VS Code, draudzīgs un jaudīgs.

  • Galvenās bibliotēkas

    • pandas + NumPy (datu apmaiņa)

    • scikit-learn (klasiskā mašīnmācīšanās)

    • PyTorch vai TensorFlow (dziļā mācīšanās, GPU uzbūvēm ir nozīme) [2][3]

    • Apskaujošo seju transformatori, spaCy, OpenCV (NLP + vīzija)

  • Paātrinājums (pēc izvēles)

    • NVIDIA → CUDA versijas [2]

    • AMD → ROCm versijas [2]

    • Apple → PyTorch ar metāla aizmugures sistēmu (MPS) [2]

⚡ Piezīme: lielākā daļa “instalēšanas sāpju” izzūd, ja ļaujat oficiālajiem instalētājiem sniegt jums precīzu komandu jūsu iestatīšanai. Kopēt, ielīmēt, viss [2][3].

Īkšķa likums: vispirms rāpot ar procesoru, pēc tam sprintēt ar grafisko karti.


Izvēlieties savu steku: pretojieties spīdīgām lietām 🧪

  • Tabulāri dati → scikit-learn. Loģistiskā regresija, nejauši meži, gradienta pastiprināšana.

  • Teksts vai attēli → PyTorch vai TensorFlow. Teksta gadījumā neliela Transformer precīza noregulēšana ir milzīgs ieguvums.

  • Tērzēšanas robotam līdzīgs rīks → llama.cpp var palaist nelielus tiesību zinātnes kursus (LLM) klēpjdatoros. Negaidiet maģiju, bet tas darbojas piezīmēm un kopsavilkumiem [5].


Tīras vides iekārtojums 🧼

# Conda veids conda create -n localai python=3.11 conda activate localai # VAI venv python -m venv .venv avots .venv/bin/activate # Windows: .venv\Scripts\activate

Pēc tam instalējiet pamatfunkcijas:

pip instalēt numpy pandas scikit-learn jupyter pip instalēt torch torchvision torchaudio # vai tensorflow pip instalēt transformers datu kopas

(GPU komplektēšanai, nopietni, vienkārši izmantojiet oficiālo selektoru [2][3].)


Pirmais darbojošais modelis: saglabājiet to mazu 🏁

Vispirms bāzes līnija. CSV → funkcijas + etiķetes → loģistiskā regresija.

no sklearn.linear_model importēt LogisticRegression ... print("Precizitāte:", accuracy_score(y_test, preds)) print(classification_report(y_test, preds))

Ja šis rādītājs pārspēj nejaušības rādītājus, jūs svinat. Kafija vai cepums, jūsu izvēle ☕.
Nesabalansētām klasēm skatieties uz precizitātes/atmiņas + ROC/PR līknēm, nevis uz neapstrādātu precizitāti [1].


Neironu tīkli (tikai tad, ja tie palīdz) 🧠

Vai jums ir teksts un vēlaties klasificēt noskaņojumu? Precīzi noregulējiet nelielu, iepriekš apmācītu Transformer. Ātri, ērti, nebojā jūsu ierīci.

no transformatoriem importēt AutoModelForSequenceClassification ... trainer.train() print(trainer.evaluate())

Profesionāls padoms: sāciet ar nelieliem paraugiem. Atkļūdošana 1% datu ietaupa stundas.


Dati: pamati, kurus nevar izlaist 📦

  • Publiskās datu kopas: Kaggle, Hugging Face, akadēmiskās krātuves (pārbaudiet licences).

  • Ētika: dzēst personas datus, ievērot tiesības.

  • Sadalījumi: apmācība, validācija, testēšana. Nekad neieskatieties.

  • Etiķetes: konsekvence ir svarīgāka par iedomātiem modeļiem.

Patiesības bumba: 60% rezultātu ir no tīrām etiķetēm, nevis arhitektūras burvības.


Metrika, kas palīdz saglabāt godīgumu 🎯

  • Klasifikācija → precizitāte, precizitāte, atcerēšanās, F1.

  • Nesabalansētas kopas → ROC-AUC, PR-AUC ir svarīgākas.

  • Regresija → MAE, RMSE, R².

  • Realitātes pārbaude → novērtējiet dažus rezultātus; skaitļi var melot.

Noderīga atsauce: scikit-learn metrikas ceļvedis [1].


Paātrinājuma padomi 🚀

  • NVIDIA → PyTorch CUDA versija [2]

  • AMD → ROCm [2]

  • Apple → MPS aizmugursistēma [2]

  • TensorFlow → izpildiet oficiālo GPU instalāciju + pārbaudiet [3]

Bet neoptimizējiet, pirms jūsu bāzes līnija pat ir izveidota. Tas ir kā pulēt diskus, pirms automašīnai ir riteņi.


Vietējie ģeneratīvie modeļi: mazuļi pūķi 🐉

  • Valoda → kvantizētas tiesību valodas, izmantojot llama.cpp [5]. Noderīgi piezīmēm vai koda padomiem, nevis dziļām sarunām.

  • Attēli → Pastāv stabilas difūzijas varianti; uzmanīgi izlasiet licences.

Dažreiz uzdevumam specifisks precīzi noregulēts Transformer pārspēj uzpūstu LLM uz mazas aparatūras.


Iepakojuma demonstrācijas: ļaujiet cilvēkiem noklikšķināt 🖥️

  • Gradio → vienkāršākais lietotāja interfeiss.

  • FastAPI → tīra API.

  • Kolba → ātrie skripti.

import gradio kā gr clf = pipeline("noskaņojuma-analīze") ... demo.launch()

Sajūta ir kā maģija, kad to parāda jūsu pārlūkprogramma.


Ieradumi, kas glābj veselo saprātu 🧠

  • Git versiju kontrolei.

  • MLflow vai piezīmju grāmatiņas eksperimentu izsekošanai.

  • Datu versiju veidošana ar DVC vai hešiem.

  • Docker, ja citiem ir nepieciešams palaist jūsu lietas.

  • Piespraust atkarības ( prasības.txt ).

Tici man, nākotnē – tu būsi pateicīgs.


Problēmu novēršana: bieži sastopami “fui” brīži 🧯

  • Instalēšanas kļūdas? Vienkārši noslaukiet vidi un izveidojiet jaunu versiju.

  • GPU nav atrasts? Draiveru neatbilstība, pārbaudiet versijas [2][3].

  • Modelis nemācās? Samaziniet mācīšanās ātrumu, vienkāršojiet vai notīriet etiķetes.

  • Pārmērīga pielāgošana? Regularizēt, atmest vai vienkārši pievienot vairāk datu.

  • Pārāk labi rādītāji? Jūs nopludinājāt testa komplektu (tas notiek biežāk, nekā jūs domājat).


Drošība + atbildība 🛡️

  • Noņemt personas datus.

  • Cieniet licences.

  • Lokālie pirmie = privātums + kontrole, bet ar skaitļošanas ierobežojumiem.

  • Dokumentu riski (taisnīgums, drošība, noturība utt.) [4].


Ērta salīdzināšanas tabula 📊

Rīks Vislabāk piemērots Kāpēc to izmantot
scikit-learn Tabulārie dati Ātras uzvaras, tīra API 🙂
PyTorch Pielāgoti dziļi tīkli Elastīga, milzīga kopiena
TensorFlow Ražošanas cauruļvadi Ekosistēma + pasniegšanas iespējas
Transformatori Teksta uzdevumi Iepriekš apmācīti modeļi ietaupa skaitļošanas apjomu
spaCy NLP cauruļvadi Industriāls spēks, pragmatisks
Gradio Demonstrācijas/lietotāja saskarnes 1 fails → UI
FastAPI API Ātrums + auto dokumenti
ONNX izpildlaiks Starpsistēmu izmantošana Pārnēsājams + efektīvs
lama.cpp Nelielas vietējās LLM programmas CPU draudzīga kvantēšana [5]
Dokers Koplietošanas vides "Tas darbojas visur"

Trīs dziļākas niršanas (kuras jūs patiešām izmantosiet) 🏊

  1. Tabulu funkciju inženierija → normalizēšana, vienreizēja pārbaude, koku modeļu izmēģināšana, savstarpēja validācija [1].

  2. Pārneses mācīšanās tekstam → mazu transformatoru precizēšana, secības garuma saglabāšana mērenā stāvoklī, F1 retām klasēm [1].

  3. Optimizācija lokālai secināšanai → kvantizēšana, ONNX eksportēšana, kešatmiņas tokenizeri.


Klasiskas kļūdas 🪤

  • Pārāk liela būvniecība, pārāk agra.

  • Datu kvalitātes ignorēšana.

  • Izlaiž testa sadalījumu.

  • Akla kopēšana-ielīmēšana.

  • Neko nedokumentē.

Pat README fails ietaupa laiku vēlāk.


Mācību resursi, kuru dēļ ir vērts veltīt laiku 📚

  • Oficiālā dokumentācija (PyTorch, TensorFlow, scikit-learn, Transformers).

  • Google mašīnmācīšanās avārijas kurss, DeepLearning.AI.

  • OpenCV dokumentācija par redzes pamatiem.

  • spaCy lietošanas rokasgrāmata NLP cauruļvadiem.

Neliels glābiņš: oficiālie instalētāji, kas ģenerē jūsu GPU instalēšanas komandu, ir īsti glābiņi [2][3].


Visu saliekot kopā 🧩

  1. Mērķis → klasificēt atbalsta pieprasījumus 3 veidos.

  2. Dati → CSV eksports, anonimizēts, sadalīts.

  3. Bāzes līnija → scikit-learn TF-IDF + loģistiskā regresija.

  4. Jaunināšana → Transformatora precīza noregulēšana, ja bāzes līnija apstājas.

  5. Demonstrācija → Gradio teksta lodziņa lietotne.

  6. Kuģis → Dokers + README.

  7. Atkārtot → labot kļūdas, pārmarķēt, atkārtot.

  8. Drošības pasākumi → dokumentu riski [4].

Tas ir garlaicīgi efektīvs.


TL;DR 🎂

Mācīšanās, kā izveidot mākslīgo intelektu savā datorā = izvēlieties vienu nelielu problēmu, izveidojiet sākotnējo līmeni, eskalējiet to tikai tad, kad tas palīdz, un saglabājiet iestatījumu atkārtojamu. Dariet to divreiz, un jūs jutīsieties kompetents. Dariet to piecas reizes, un cilvēki sāks lūgt jums palīdzību, kas slepeni ir jautrākā daļa.

Un jā, dažreiz ir sajūta, ka jāmāca tosterim rakstīt dzeju. Viss kārtībā. Turpini eksperimentēt. 🔌📝


Atsauces

[1] scikit-learn — Metrika un modeļa novērtēšana: saite
[2] PyTorch — Lokālās instalācijas atlasītājs (CUDA/ROCm/Mac MPS): saite
[3] TensorFlow — Instalēšana + GPU verifikācija: saite
[4] NIST — AI risku pārvaldības ietvars: saite
[5] llama.cpp — Lokālā LLM krātuve: saite


Atrodiet jaunāko mākslīgo intelektu oficiālajā mākslīgā intelekta palīgu veikalā

Par mums

Atpakaļ uz emuāru