Глоссарий
Каждый термин, которым пользуются уроки, — по одному безжалостному предложению на каждый. Термины ссылаются на урок, где их можно увидеть в деле.
Модель
- Параметр / вес — одна из ~4 000 настраиваемых ручек модели; обучение — это процесс их выставления. (00, 05)
- Токен (token) — символ, превращённый в число, чтобы математика могла его съесть; большие модели используют куски слов, microGPT — отдельные символы. (01)
- Токенизатор — таблица соответствий, переводящая символы в токены и обратно. (01)
- Эмбеддинг (embedding) — список из 16 чисел (вектор), представляющий один токен внутри модели. (04)
- Логиты (logits) — 27 сырых выходных оценок модели, по одной на каждый возможный следующий символ, до превращения в вероятности. (01, 04)
- Софтмакс (softmax) — преобразователь сырых оценок в вероятности: возьми экспоненту от всего, затем подели на сумму. (00, 03, 05)
- Распределение — полный набор из 27 вероятностей с суммой 1; настоящий ответ модели — всегда распределение, никогда не один символ. (01)
- Сэмплирование (sampling) — вытягивание одного символа случайно, в соответствии с распределением, а не всегда самого вероятного. (01, 05)
- Температура — константа, на которую делятся оценки перед софтмаксом; высокая = площе и случайнее, низкая = острее и с повторами. (05)
- Страж START / STOP — единственный особый токен, который означает «начало текста» на входе и «конец текста», когда предсказан на выходе. (01)
Архитектура (уроки 03–04)
- Внимание (attention) — шаг, на котором каждая позиция оценивает все более ранние позиции на релевантность (скалярные произведения), прогоняет оценки через софтмакс в веса и берёт взвешенное среднее того, что эти позиции предлагают. (03)
- Запрос / Ключ / Значение (q, k, v) — три вектора, выведенные из каждой позиции: что я ищу (q), что я рекламирую (k), что я отдаю, если меня выбрали (v). (03)
- Причинная маска (causal mask) — правило, по которому позиция может смотреть только на более ранние позиции и никогда на будущие; обеспечивается обнулением запрещённых оценок. (03)
- Голова внимания — одна независимая копия механизма внимания; microGPT гоняет несколько параллельно, чтобы каждая могла выучить свой паттерн. (03, 04)
- MLP (многослойный перцептрон) — стадия «обдумать» после внимания: два умножения матриц с ReLU между ними, применяемые к каждой позиции отдельно. (04)
- ReLU — простейшая кривая глубокого обучения: отрицательные числа становятся 0, положительные проходят без изменений. (02, 04)
- RMSNorm — шаг перемасштабирования, удерживающий числа каждого вектора в здоровом общем размере, чтобы ничто не взрывалось и не исчезало; нормализация, и ничего больше. (04)
- Остаточная связь (residual connection) — прибавление входа блока обратно к его выходу, чтобы каждому блоку приходилось учить лишь поправку, а не полное преобразование. (04)
- Поворотный эмбеддинг (RoPE) — трюк, сообщающий вниманию, где в последовательности сидит каждый токен: q и k поворачиваются на углы, зависящие от позиции. (04)
- Блок трансформера — одна полная единица архитектуры эпохи эмбеддингов: нормализация → внимание → остаточная связь → нормализация → MLP → остаточная связь. (04)
- Decoder-only трансформер — форма семейства GPT: стопка блоков трансформера с причинной маской, обученная предсказывать следующий токен. (04)
Цикл обучения (уроки 02 и 05)
- Прямой проход (forward pass) — запуск функции: токены на входе, логиты на выходе. (01, 04)
- Потери (loss) — одно число, измеряющее, насколько модель неправа; здесь это
-log p(истина), усреднённый по позициям, так что уверенно неправильные ответы бьют больнее всего. (01, 05) - Градиент — для каждого параметра ответ на вопрос: «если я чуть подкручу эту ручку вверх, насколько и в какую сторону изменятся потери?» (00, 02)
- Цепное правило — чувствительности сквозь цепочку операций перемножаются, как передаточные числа шестерёнок; хребет обратного распространения. (00, 02)
- Обратное распространение /
.backward()— вычисление градиента каждого параметра за один обратный проход по графу вычислений. (02) - Автоград (autograd) — бухгалтерия, записывающая граф вычислений во время прямого прохода, чтобы
.backward()мог проиграть его в обратную сторону. (02) - DAG (направленный ациклический граф) — форма этого записанного вычисления: стрелки текут вперёд, циклов нет; «ациклический» просто значит, что нельзя пройти по кругу. (02)
- Топологический порядок — обход узлов графа так, чтобы каждый узел шёл после узлов, от которых он зависит; порядок, который
.backward()проходит в обратную сторону. (02) - Градиентный спуск — рецепт обучения: подтолкни каждую ручку на маленький шаг против её градиента, повтори тысячи раз. (00, 05)
- Скорость обучения (learning rate) — размер этого толчка; слишком большой — проскочишь, слишком маленький — будешь ползти. (05)
- Adam — более умная версия градиентного спуска, подстраивающая размер шага каждой ручки под историю её градиентов. (05)
- Шаг / итерация — один полный цикл: прямой проход → потери → обратный проход → обновление параметров. (05)
Last updated on