Ещё два года назад 4K токенов был стандартом, 16K — роскошью. Сегодня модели оперируют миллионом токенов. Это не просто «больше памяти» — это другой класс задач, которые теперь решаются в один вызов API.
// Что реально влезает в 1M токенов
1M токенов — это примерно 750 000 слов, или ~2 500 страниц текста, или весь репозиторий среднего стартапа. Это означает: можно скормить модели всю кодовую базу и попросить найти баг. Можно передать 500 PDF-документов и задать вопрос поиском по ним. Можно провести полную историю переписки с клиентом за год.
// Needle-in-a-haystack проблема
Большое окно — не гарантия качества. Исследования показывают: модели хуже работают с информацией из середины контекста. Это называют «lost in the middle» эффектом. Важные данные лучше класть в начало или конец промпта. RAG при этом не умирает — он дополняет большой контекст там, где нужна точность поиска по гигантской базе.
Большой контекст — это как рабочий стол. Можно разложить на нём всё, но если не знаешь где искать — всё равно теряешься.
// Как мы используем это в продуктах
В PLOS весь профиль пользователя, история анализов и протоколов теперь помещается в один контекст без разбивки на чанки. Это упрощает архитектуру и улучшает качество ответов AI-агентов — они видят полную картину здоровья пользователя, а не фрагменты.