跳到主要内容

Transformer 架构解析:Attention 机制与工作原理

Summary

@amitiitbhu 分享的 Transformer 架构深度解析博客。涵盖 Self-Attention 机制、FFN、层归一化、编码器/解码器架构等核心组件。

Key Concepts

  • Transformer Architecture — 现代 LLM 的基础架构
  • Self Attention — Transformer 核心机制
  • Position Encoding — 序列位置信息编码
  • bbycroft.net/llm - LLM 3D 交互式可视化
  • Karpathy microGPT - 纯Python零依赖的最小GPT实现
  • 强化学习数学基础(开源教材)