Глоссарий

🌐 English · Русский · Eesti

Каждый термин, которым пользуются уроки, — по одному безжалостному предложению на каждый. Термины ссылаются на урок, где их можно увидеть в деле.

Модель

Параметр / вес — одна из ~4 000 настраиваемых ручек модели; обучение — это процесс их выставления. (00, 05)
Токен (token) — символ, превращённый в число, чтобы математика могла его съесть; большие модели используют куски слов, microGPT — отдельные символы. (01)
Токенизатор — таблица соответствий, переводящая символы в токены и обратно. (01)
Эмбеддинг (embedding) — список из 16 чисел (вектор), представляющий один токен внутри модели. (04)
Логиты (logits) — 27 сырых выходных оценок модели, по одной на каждый возможный следующий символ, до превращения в вероятности. (01, 04)
Софтмакс (softmax) — преобразователь сырых оценок в вероятности: возьми экспоненту от всего, затем подели на сумму. (00, 03, 05)
Распределение — полный набор из 27 вероятностей с суммой 1; настоящий ответ модели — всегда распределение, никогда не один символ. (01)
Сэмплирование (sampling) — вытягивание одного символа случайно, в соответствии с распределением, а не всегда самого вероятного. (01, 05)
Температура — константа, на которую делятся оценки перед софтмаксом; высокая = площе и случайнее, низкая = острее и с повторами. (05)
Страж START / STOP — единственный особый токен, который означает «начало текста» на входе и «конец текста», когда предсказан на выходе. (01)

Архитектура (уроки 03–04)

Внимание (attention) — шаг, на котором каждая позиция оценивает все более ранние позиции на релевантность (скалярные произведения), прогоняет оценки через софтмакс в веса и берёт взвешенное среднее того, что эти позиции предлагают. (03)
Запрос / Ключ / Значение (q, k, v) — три вектора, выведенные из каждой позиции: что я ищу (q), что я рекламирую (k), что я отдаю, если меня выбрали (v). (03)
Причинная маска (causal mask) — правило, по которому позиция может смотреть только на более ранние позиции и никогда на будущие; обеспечивается обнулением запрещённых оценок. (03)
Голова внимания — одна независимая копия механизма внимания; microGPT гоняет несколько параллельно, чтобы каждая могла выучить свой паттерн. (03, 04)
MLP (многослойный перцептрон) — стадия «обдумать» после внимания: два умножения матриц с ReLU между ними, применяемые к каждой позиции отдельно. (04)
ReLU — простейшая кривая глубокого обучения: отрицательные числа становятся 0, положительные проходят без изменений. (02, 04)
RMSNorm — шаг перемасштабирования, удерживающий числа каждого вектора в здоровом общем размере, чтобы ничто не взрывалось и не исчезало; нормализация, и ничего больше. (04)
Остаточная связь (residual connection) — прибавление входа блока обратно к его выходу, чтобы каждому блоку приходилось учить лишь поправку, а не полное преобразование. (04)
Поворотный эмбеддинг (RoPE) — трюк, сообщающий вниманию, где в последовательности сидит каждый токен: q и k поворачиваются на углы, зависящие от позиции. (04)
Блок трансформера — одна полная единица архитектуры эпохи эмбеддингов: нормализация → внимание → остаточная связь → нормализация → MLP → остаточная связь. (04)
Decoder-only трансформер — форма семейства GPT: стопка блоков трансформера с причинной маской, обученная предсказывать следующий токен. (04)

Цикл обучения (уроки 02 и 05)

Прямой проход (forward pass) — запуск функции: токены на входе, логиты на выходе. (01, 04)
Потери (loss) — одно число, измеряющее, насколько модель неправа; здесь это -log p(истина), усреднённый по позициям, так что уверенно неправильные ответы бьют больнее всего. (01, 05)
Градиент — для каждого параметра ответ на вопрос: «если я чуть подкручу эту ручку вверх, насколько и в какую сторону изменятся потери?» (00, 02)
Цепное правило — чувствительности сквозь цепочку операций перемножаются, как передаточные числа шестерёнок; хребет обратного распространения. (00, 02)
Обратное распространение / .backward() — вычисление градиента каждого параметра за один обратный проход по графу вычислений. (02)
Автоград (autograd) — бухгалтерия, записывающая граф вычислений во время прямого прохода, чтобы .backward() мог проиграть его в обратную сторону. (02)
DAG (направленный ациклический граф) — форма этого записанного вычисления: стрелки текут вперёд, циклов нет; «ациклический» просто значит, что нельзя пройти по кругу. (02)
Топологический порядок — обход узлов графа так, чтобы каждый узел шёл после узлов, от которых он зависит; порядок, который .backward() проходит в обратную сторону. (02)
Градиентный спуск — рецепт обучения: подтолкни каждую ручку на маленький шаг против её градиента, повтори тысячи раз. (00, 05)
Скорость обучения (learning rate) — размер этого толчка; слишком большой — проскочишь, слишком маленький — будешь ползти. (05)
Adam — более умная версия градиентного спуска, подстраивающая размер шага каждой ручки под историю её градиентов. (05)
Шаг / итерация — один полный цикл: прямой проход → потери → обратный проход → обновление параметров. (05)