Darmowa dostawa dla zamówień powyżej 299,00 zł.

Sprawdzić stan zamówienia

Zostań członkiem wspólnoty miłośników książek z całego świata i zyskaj mnóstwo korzyści. Załóż konto bezpłatnie

Darmowa dostawa z usługą Inpost oraz Orlen od 299.00 zł

DPD Kurier 12.99 zł Poczta Polska 18.99 zł Paczkomat 13.99 zł InPost 12.99 zł Punkt DPD 13.99 zł

Kontakt

Jak kupować

Pomoc

Moje konto

▸ Pusty :-(

Darmowa dostawa dla zamówień powyżej 299,00 zł.

AI Inference Optimization Engineering

Name: AI Inference Optimization Engineering
Brand: Independently published
SKU: 52770465
Price: 43.19 PLN
Availability: InStock
Author: ChatVariety Team
ISBN: 9798199720021

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

ChatVariety Team

Język

Angielski

Książka Miękka

Kod Libristo: 52770465

Wydawnictwo Independently published, czerwiec 2026

Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Cały opis

Kod Libristo: 52770465

25 b

Zapowiedź

Nowość

43.19 zł

Zapowiedź Wydanie 07. 06. 2026

30 dni na zwrot towaru

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:

Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Aktorka & Poliglotka

EWA KASP dla

Odtworzyć wideo

Libristo ma największy wybór literatury obcojęzycznej. Dlatego tutaj kupuję swoje książki.

Informacje o książce

Pełna nazwa AI Inference Optimization Engineering

Autor ChatVariety Team

Język

Angielski

Oprawa Książka - Miękka

Data wydania 2026

Liczba stron 96

EAN 9798199720021

Kod Libristo 52770465

Wydawnictwo Independently published

Waga 142

Wymiary 152 x 229 x 5

Kategoria

Informatyka i technologie informacyjne (IT) > Informatyka (nauka) > Sztuczna inteligencja > Języki naturalne i tłumaczenie automatyczne

Podaruj tę książkę jeszcze dziś

To łatwe

1 Dodaj książkę do koszyka i wybierz „dostarczyć jako prezent” 2 W odpowiedzi wyślemy Ci bon 3 Książka dotrze na adres obdarowanego

Najczęściej wyszukiwane

Categories

Authors

Publishers

Najczęściej wyszukiwane

Produkty

Categories

Authors

Publishers

Dostawa

Doradca ds. zakupów

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Informacje o książce

Kategoria

Podaruj tę książkę jeszcze dziś

To łatwe

Najczęściej wyszukiwane

Categories

Authors

Publishers

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Informacje o książce

Kategoria

Podaruj tę książkę jeszcze dziś

To łatwe

Nie masz konta? Zyskaj korzyści konta Libristo!