LIBRISTO
LIBROAMANTO
obowiązkowe
Zostań członkiem wspólnoty miłośników książek z całego świata i zyskaj mnóstwo korzyści. Załóż konto bezpłatnie
0
Darmowa dostawa z usługą Inpost oraz Orlen od 299.00 zł
DPD Kurier 12.99 Poczta Polska 18.99 Paczkomat 13.99 InPost 12.99 Punkt DPD 13.99

Darmowa dostawa dla zamówień powyżej 299,00 zł.

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Język AngielskiAngielski
Książka Miękka
Książka AI Inference Optimization Engineering ChatVariety Team
Kod Libristo: 52770465
Wydawnictwo Independently published, czerwiec 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Cały opis
? points 25 b Zapowiedź Zapowiedź Nowość Nowość
43.19
Zapowiedź Wydanie 07. 06. 2026

30 dni na zwrot towaru

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Aktorka & Poliglotka
EWA KASP dla
Odtworzyć wideo
Ewa Kasp
Libristo ma największy wybór literatury obcojęzycznej. Dlatego tutaj kupuję swoje książki.

Informacje o książce

Pełna nazwa AI Inference Optimization Engineering
Język Angielski
Oprawa Książka - Miękka
Data wydania 2026
Liczba stron 96
EAN 9798199720021
Kod Libristo 52770465
Waga 142
Wymiary 152 x 229 x 5
Podaruj tę książkę jeszcze dziś
To łatwe
1 Dodaj książkę do koszyka i wybierz „dostarczyć jako prezent” 2 W odpowiedzi wyślemy Ci bon 3 Książka dotrze na adres obdarowanego

Logowanie

Zaloguj się do swojego konta. Nie masz jeszcze konta Libristo? Utwórz je teraz!

 
obowiązkowe
obowiązkowe

Nie masz konta? Zyskaj korzyści konta Libristo!

Dzięki kontu Libristo będziesz mieć wszystko pod kontrolą.

Utwórz konto Libristo