Attention

LLM Attention Kernels and GPU Primitives

📅 Jun 5, 2026 · ☕ 1 min read · ✍️ k4i

A series index for LLM attention kernels and GPU primitives: fused softmax, online softmax, FlashAttention, PagedAttention kernels, Triton/CUDA, and memory-access optimization.

From Absolute Positional Encoding to RoPE: Why Position Can Be a Rotation

📅 May 28, 2026 · ☕ 10 min read · ✍️ k4i

A step-by-step explanation of positional encoding in Transformers, from absolute embeddings to sinusoidal encodings, Euler's formula, and rotary position embeddings.