Sõnastik
Iga termin, mida õppetunnid kasutavad, ühe halastamatu lausega. Terminid viitavad tagasi õppetunnile, kus neid tegevuses näeb.
Mudel
- Parameeter / kaal (weight) — üks mudeli ~4000 keeratavast nupust; treenimine on nende paikaseadmise protsess. (00, 05)
- Token — arvuks teisendatud tähemärk, et matemaatika saaks seda süüa; suured mudelid kasutavad sõnatükke, microGPT üksikuid tähemärke. (01)
- Tokeniseerija (tokenizer) — otsingutabel, mis teisendab tähemärgid tokeniteks ja tagasi. (01)
- Vektoresitus (embedding) — 16 arvust koosnev loend (vektor), mis esindab ühte tokenit mudeli sees. (04)
- Logitid (logits) — mudeli 27 toorest väljundskoori, üks iga võimaliku järgmise tähemärgi kohta, enne tõenäosusteks muutmist. (01, 04)
- Softmax — muundur toorskooridest tõenäosusteks: võta kõigest eksponent, siis jaga kogusummaga. (00, 03, 05)
- Jaotus (distribution) — täielik komplekt 27 tõenäosust summaga 1; mudeli tegelik vastus on alati jaotus, mitte kunagi üksainus tähemärk. (01)
- Valimine (sampling) — ühe tähemärgi juhuslik loosimine vastavalt jaotusele, selle asemel et alati võtta kõige tõenäolisem. (01, 05)
- Temperatuur (temperature) — konstant, millega skoorid enne softmax’i jagatakse; kõrge = lamedam ja juhuslikum, madal = teravam ja korduvam. (05)
- START/STOP vahimärk (sentinel) — see üks spetsiaalne token, mis sisendis tähistab „teksti algust” ja väljundina ennustatuna „teksti lõppu”. (01)
Arhitektuur (õppetunnid 03–04)
- Tähelepanu (attention) — samm, kus iga positsioon hindab kõigi varasemate positsioonide asjakohasust (skalaarkorrutised), muudab skoorid softmax’iga kaaludeks ja võtab kaalutud keskmise sellest, mida need positsioonid pakuvad. (03)
- Päring / võti / väärtus (query / key / value, q, k, v) — kolm igast positsioonist tuletatud vektorit: mida ma otsin (q), mida ma reklaamin (k), mida ma valituks osutudes üle annan (v). (03)
- Põhjuslik mask (causal mask) — reegel, et positsioon tohib vaadata ainult varasemaid positsioone, mitte kunagi tulevasi; jõustatakse keelatud skooride nullimisega. (03)
- Tähelepanupea (attention head) — üks sõltumatu koopia tähelepanumehhanismist; microGPT jooksutab mitut paralleelselt, et igaüks saaks õppida oma mustri. (03, 04)
- MLP (mitmekihiline pertseptron) — „mõtle järele” etapp pärast tähelepanu: kaks maatrikskorrutamist ReLU-ga vahel, rakendatuna igale positsioonile eraldi. (04)
- ReLU — süvaõppe lihtsaim kõver: negatiivsetest arvudest saab 0, positiivsed lähevad muutmata läbi. (02, 04)
- RMSNorm — ümberskaleerimise samm, mis hoiab iga vektori arvud tervislikus suuruses, et miski ei plahvataks ega haihtuks; normaliseerimine, ei midagi enamat. (04)
- Jääkühendus (residual connection) — ploki sisendi tagasi liitmine tema väljundile, nii et iga plokk peab õppima ainult paranduse, mitte täieliku teisenduse. (04)
- Pöörlev vektoresitus (rotary embedding, RoPE) — trikk, mis ütleb tähelepanule, kus iga token jadas asub, pöörates q-d ja k-d positsioonist sõltuvate nurkade võrra. (04)
- Transformeri plokk — üks täielik vektoresituste ajastu arhitektuuriüksus: norm → tähelepanu → jääkühendus → norm → MLP → jääkühendus. (04)
- Ainult-dekoodriga transformer (decoder-only transformer) — GPT-pere kuju: virn transformeri plokke põhjusliku maskiga, treenitud ennustama järgmist tokenit. (04)
Treeningtsükkel (õppetunnid 02 ja 05)
- Edasisuund (forward pass) — funktsiooni jooksutamine: tokenid sisse, logitid välja. (01, 04)
- Kadu (loss) — üks arv, mis mõõdab, kui palju mudel eksib; siin
-log p(tõde)keskmistatuna üle positsioonide, nii et enesekindlalt vale vastus on kõige valusam. (01, 05) - Gradient — iga parameetri kohta vastus küsimusele „kui ma nügin seda nuppu natuke ülespoole, kui palju ja kummas suunas kadu muutub?” (00, 02)
- Ahelreegel (chain rule) — tundlikkused läbi aheldatud tehete korrutuvad, nagu hammasrataste ülekandearvud; tagasilevi selgroog. (00, 02)
- Tagasilevi /
.backward()(backpropagation) — iga parameetri gradiendi arvutamine ühe tagurpidi läbikäiguga üle arvutusgraafi. (02) - Autograd — raamatupidamismasinavärk, mis salvestab edasisuuna ajal arvutusgraafi, et
.backward()saaks selle tagurpidi maha mängida. (02) - DAG (suunatud atsükliline graaf) — selle salvestatud arvutuse kuju: nooled voolavad edasi, silmuseid pole; „atsükliline” tähendab lihtsalt, et ringiratast kõndida ei saa. (02)
- Topoloogiline järjestus — graafi sõlmede külastamine nii, et iga sõlm tuleb pärast neid sõlmi, millest ta sõltub; järjekord, mida
.backward()käib tagurpidi läbi. (02) - Gradientlaskumine (gradient descent) — treenimise retsept: nügi iga nuppu väikese sammu võrra tema gradiendi vastu, korda tuhandeid kordi. (00, 05)
- Õpisamm (learning rate) — selle nügimise suurus; liiga suur laseb üle, liiga väike roomab. (05)
- Adam — gradientlaskumise targem versioon, mis kohandab iga nupu sammu suurust tema gradientide ajaloo põhjal. (05)
- Samm / iteratsioon (step) — üks täistsükkel: edasisuund → kadu → tagasilevi → parameetrite uuendus. (05)
Last updated on