kKontora.
← Блог
LLMAIАрхитектура

Контекстное окно в 1M токенов: что это меняет на практике

Kontora Studios

Ещё два года назад 4K токенов был стандартом, 16K — роскошью. Сегодня модели оперируют миллионом токенов. Это не просто «больше памяти» — это другой класс задач, которые теперь решаются в один вызов API.

// Что реально влезает в 1M токенов

1M токенов — это примерно 750 000 слов, или ~2 500 страниц текста, или весь репозиторий среднего стартапа. Это означает: можно скормить модели всю кодовую базу и попросить найти баг. Можно передать 500 PDF-документов и задать вопрос поиском по ним. Можно провести полную историю переписки с клиентом за год.

// Needle-in-a-haystack проблема

Большое окно — не гарантия качества. Исследования показывают: модели хуже работают с информацией из середины контекста. Это называют «lost in the middle» эффектом. Важные данные лучше класть в начало или конец промпта. RAG при этом не умирает — он дополняет большой контекст там, где нужна точность поиска по гигантской базе.

Большой контекст — это как рабочий стол. Можно разложить на нём всё, но если не знаешь где искать — всё равно теряешься.

// Как мы используем это в продуктах

В PLOS весь профиль пользователя, история анализов и протоколов теперь помещается в один контекст без разбивки на чанки. Это упрощает архитектуру и улучшает качество ответов AI-агентов — они видят полную картину здоровья пользователя, а не фрагменты.