Context window.
Maximálne množstvo tokenov, ktoré model spracuje v jednej požiadavke — input + output.
Context window udáva, koľko textu môže model naraz vidieť. Claude 4.7 má 200K tokens (cca 150 000 slov), s 1M variant. GPT-5 má 256K. Gemini až 2M. Čím väčšie okno, tým viac dokumentov sa zmestí do promptu naraz. Pri prekročení okna treba dáta filtrovať (RAG) alebo sumarizovať. Cena dotazu rastie s počtom tokenov, takže veľké okno sa nepoužíva ako kladivo na všetko. Dôležité — aj keď model technicky 'vidí' celý 200K kontext, jeho schopnosť presne vyhľadať fakt v strede dlhého dokumentu klesá (tzv. lost-in-the-middle problém), takže pri kritických extrakciách stále vyhráva RAG nad cpaním všetkého do promptu.
Analýza právnej zmluvy (50 strán)
Zmluva má ~30 000 tokenov. Zmestí sa do 200K okna Claude 4.7 bez problémov. Vieš sa pýtať 'aké sú výpovedné lehoty' a model nájde odpoveď. Cena: ~0,09 USD na dotaz. Bez veľkého okna by si musel zmluvu rozdeliť na časti a riešiť cross-reference manuálne.
Code review celého repa
Stredne veľký TypeScript projekt (cca 80 súborov, 60 000 tokenov) nahráš naraz do 1M variant Claude. Spýtaš sa 'kde je tu pravdepodobné security riziko?' a model krížovo prejde celý codebase. Cena rastie s veľkosťou, preto cache.
Chatbot zákazníckej podpory s históriou
Konverzácia s klientom rastie. Bez správy okna prekročíš limit po ~50 správach. Riešenie: starých 80 % konverzácie zhrnúť do 500 tokenov a držať v kontexte len posledných 5 výmen + sumár.
- 01
Keď máš databázu 10 000+ dokumentov — žiadne okno ich neudrží. Použi RAG (vector databáza) a do promptu posielaj len top 5–10 relevantných pasáží.
- 02
Keď ti záleží na cene per request — dlhý kontext znamená vysokú cenu aj keď model väčšinu informácií ignoruje.
- 03
Pri citlivých údajoch — čím viac dát v prompte, tým väčšia plocha úniku. Aj logy a debugging výpisy zachytávajú celý kontext.
- ✕
Zamieňanie okna s pamäťou. Model si NIČ medzi dvoma volaniami nepamätá — celá história musí byť znova v prompte.
- ✕
Predpoklad, že 'big context' = 'lepšie odpovede'. Pri otázkach nad dlhým dokumentom model často prehliadne fakty v strede. Vždy testuj.
- ✕
Spoliehanie sa na cache pri rýchlo sa meniacich dátach. Prompt cache pomáha keď je systémový kontext stabilný; pri každej zmene treba znova platiť plnú cenu.
- ✕
Neuvažovanie nad výstupom. Ak model má vrátiť 50K tokenov odpovede, do okna 200K sa môže vmestiť len 150K vstupu.
Koľko strán PDF zodpovedá 200K tokens?
+
Pre slovenský/český text zhruba 250–300 normostrán. Pre angličtinu cca 350. Pre kód závisí od jazyka — TypeScript ~30 000 riadkov.
Je 1M token okno reálne použiteľné?
+
Áno, ale ekonomicky len pri špecifických úlohách (code base analýza, právny audit). Cena za jeden request rastie do ~1 USD. Pri väčšine bežných úloh stačí 100–200K.
Čo sa stane keď prekročím okno?
+
API vráti chybu 'context length exceeded'. Aplikácia musí buď zhrnúť staršiu časť kontextu, alebo cez RAG vybrať len relevantné dáta.
Token
Najmenšia jednotka, ktorú LLM spracúva — približne 0,75 slova v angličtine, pre slovenčinu o niečo viac.
LLM
Large Language Model — rozsiahly jazykový model natrénovaný na obrovskom korpuse textu, schopný generovať a rozumieť prirodzenému jazyku.
RAG (Retrieval-Augmented Generation)
Technika, kde LLM pred odpoveďou vyhľadá relevantné dokumenty v knowledge base a odpovedá na ich základe — minimalizuje halucinácie.
Hľadáte nasadenie Context window vo firme?
Bezplatná konzultácia. 30 minút online. Po nej viete, či má pre vás zmysel pokračovať.