Jonah's ML Notes

LoRa

Mar 24, 2024

Efficient LLM Finetuning.

Flash Attention

Mar 23, 2024

Reduce the memory usage used to compute exact attention.

Multi & Grouped Query Attention

Mar 22, 2024

Use less K and V matrices to use less memory.