high-bandwidth memories

musings on deep learning systems

FireAttention — Serving Open Source Models 4x faster than vLLM by quantizing with ~no tradeoffs

7 min read · January 8, 2024 · medium.com

2024
Fireworks Raises the Quality Bar with Function Calling Model and API Release

11 min read · December 20, 2023 · medium.com

2023
Mixtral 8x7B on Fireworks: faster, cheaper, even before the official release

5 min read · December 14, 2023 · medium.com

2023
LLM Inference Performance Benchmarking (Part 1)

4 min read · November 3, 2023 · medium.com

2023
New in Fireworks: Image-to-Image and ControlNet support for SSD-1B and SDXL!

4 min read · November 2, 2023 · medium.com

2023