Суверенный AI для российских предприятий

Суверенный AI — это архитектурный подход, при котором данные, инфраструктура и языковые модели находятся под российской юрисдикцией и соответствуют требованиям 152-ФЗ. Это включает локализацию хранения персональных данных на территории РФ, инференс на отечественных или open-weights моделях и запуск всех сервисов на инфраструктуре, подконтрольной российскому оператору.

Для PR-агентств и пресс-служб, работающих с конфиденциальными релизами и медиабазами, это не опция — это требование.

Ключевые тезисы

•Суверенный AI — это данные, инфраструктура и модели под юрисдикцией РФ
•152-ФЗ требует первичного хранения ПД граждан РФ на территории России
•Три архитектурных варианта: cloud-SaaS (не соответствует), гибрид (частично), self-hosted (соответствует)
•Open-weights модели (Qwen, YandexGPT) делают полностью суверенный стек реалистичным
•Соответствие — это не только хранение, это весь конвейер обработки, включая AI-вендора

Почему вопрос суверенитета актуален в 2026 году

Совпали три тренда. Первое — регуляторное давление: усиление надзора Роскомнадзора, рост штрафов за трансграничную передачу персональных данных, прецеденты блокировки сервисов за несоответствие 152-ФЗ. Второе — геополитический контекст: ограничение доступа к зарубежным облачным провайдерам (AWS, Azure, GCP), официальное отсутствие OpenAI и Anthropic API в РФ, нестабильность foreign-эндпоинтов даже там, где формально доступ есть. Третье — зрелость отечественного стека: GA-релизы Yandex Cloud GenAI, YandexGPT 5, доступность open-weights моделей Qwen 3 и Llama 3 на российских GPU-инстансах. Впервые возможно построить суверенный стек без потери качества — раньше это был выбор «соответствие или функциональность», сейчас уже нет.

Это окно — построить суверенную AI-инфраструктуру можно сейчас, не дожидаясь, пока регуляторное давление сделает это аварийной задачей.

Архитектура суверенного AI-решения

Пятислойная модель. Каждый слой решает одну задачу, между ними — чёткие границы данных. Граница периметра проходит по этим слоям: всё, что обрабатывает ПД, должно находиться внутри российского периметра целиком.

Слой данных — РФ-only object storage (Yandex Object Storage, ru-central1), on-prem PostgreSQL, медиа-файлы в локальном S3-совместимом хранилище
Слой векторизации и поиска — pgvector на Supabase self-hosted или Yandex Managed PostgreSQL; embedding-модели запускаются на тех же инстансах, что и ретривал, чтобы текст ПД не покидал периметр для построения эмбеддингов
Слой инференса — Yandex Cloud GenAI (managed YandexGPT 5), Qwen 3 / Llama 3 на Yandex GPU-инстансах через vLLM или TGI, либо on-prem GPU-серверы для контрактов с особыми требованиями к контролю весов
Слой оркестрации — n8n self-hosted, LangChain на российских compute-нодах; агентная логика выполняется внутри периметра, без callout'ов в зарубежные API
Слой приложения — Next.js / Vercel AI SDK интерфейсы, развёрнутые на Timeweb Cloud Apps или Yandex Compute Cloud; для enterprise — single-tenant deployment на инфраструктуре клиента

Например, наш продукт tender-docs-app построен по этой архитектуре полностью.

Облако vs гибрид vs self-hosted: что выбрать

Три модели развёртывания, каждая со своим компромиссом стоимости, скорости и соответствия. Ключевой вопрос — обрабатываются ли в системе ПД граждан РФ. Если да — третий столбец. Если нет — первые два открыты, выбор зависит от стоимости и стратегической независимости от вендора.

Критерий	Cloud SaaS (зарубежный)	Гибрид (RU-cloud + foreign API)	Self-hosted на RU
Локализация ПД	Нарушает 152-ФЗ	Частично — зависит от пайплайна	Соответствует
Стоимость (CAPEX)	Низкий	Средний	Высокий
Стоимость (OPEX)	Средний или высокий	Средний	Низкий после развёртывания
Качество моделей	Frontier (GPT-4, Claude)	Frontier для read-only задач	Open-weights (Qwen, YandexGPT)
Время до запуска	Дни	Недели	Месяцы
Зависимость от вендора	Высокая	Средняя	Низкая
Подходит для	Прототипы, не-PII	Аналитика обезличенных данных	Production с ПД

Гибридная модель работает там, где удаётся обезличить данные на этапе извлечения. Для production-обработки персональных данных юридически работает только третий столбец.

Что требует 152-ФЗ от AI-решений

Что считается персональными данными (ст. 3): любая информация, прямо или косвенно идентифицирующая физическое лицо — включая email, телефон, фото, голос, поведенческие данные. Промпт, в котором эксперт цитирует материал клиента с именем спикера, — это обработка ПД.

Принцип первичного хранения (ст. 18 ч. 5): запись, систематизация, накопление, хранение, уточнение и извлечение ПД должны выполняться через базы данных, расположенные на территории РФ. Это не «бэкап в РФ» — это первичный мастер-источник.

Трансграничная передача (ст. 12): требует согласия субъекта или попадания страны в утверждённый перечень. США, ЕС после 2022 года в перечне отсутствуют.

Роль AI-вендора: компания, обрабатывающая ПД для решения задач клиента, является оператором или лицом, осуществляющим обработку. Обе роли несут полные обязанности по 152-ФЗ.

Распространённое заблуждение: «модель не видит ПД, она видит только эмбеддинг». Это не работает юридически — эмбеддинг ПД сам является обработкой ПД, и промпт, передаваемый в LLM, тоже. Любой шаг пайплайна, через который проходит ПД, регулируется законом.

Позиция Роскомнадзора по LLM-сервисам: в публичных разъяснениях 2025 года передача промптов с ПД зарубежным API-эндпоинтам квалифицируется как трансграничная передача ПД. Это закрывает «удобный» сценарий «прокинем через API в OpenAI» как способ обхода — он формально нарушает закон.

Подход Кельвы к суверенности

Кельва строит AI-инфраструктуру с суверенностью как архитектурным значением по умолчанию, а не как опцией развёртывания. Это означает, что любой наш продукт может быть развёрнут в полностью российском периметре без переписывания кода — отличается только конфигурация инфраструктуры, не сама система.

Суверенный по умолчанию

Полный self-hosted стек на Yandex Cloud (ru-central1). Данные, эмбеддинги, инференс — всё в российском периметре. Single-tenant развёртывание для каждого клиента.

Tender Docs App

Гибрид по запросу

По умолчанию работают на оптимальной для качества инфраструктуре. Для enterprise-контрактов разворачиваются в полностью суверенной конфигурации без изменений в коде. Архитектурно подготовлены к swap-out зарубежных моделей на YandexGPT или Qwen self-hosted.

Генератор кейсов SEO-агент Генератор медиакомментариев

Только облако (без суверенной опции)

Это намеренно: каждый продукт Кельвы поддерживает суверенное развёртывание.

(пусто — все продукты Кельвы поддерживают суверенное развёртывание)

Для PR-агентства, обслуживающего клиента из регулируемой отрасли, это не маркетинговая фраза — это решение, можно ли вообще использовать AI-инструмент в работе.

Вопросы и ответы

Что такое суверенный AI?

Подход, при котором обработка данных, инференс языковых моделей и оркестрация агентов выполняются под российской юрисдикцией. Все ПД остаются на территории РФ, инфраструктура подконтрольна российскому оператору, языковые модели либо отечественные (YandexGPT), либо open-weights (Qwen, Llama) на российских GPU.

Обязательно ли self-hosting для соответствия 152-ФЗ?

Не во всех случаях. Если в системе не обрабатываются ПД граждан РФ или данные обезличены до передачи в AI, можно использовать managed-сервисы (Yandex Cloud GenAI). Для обработки ПД — self-hosting или managed-сервис в РФ-юрисдикции с подтверждённым соответствием.

Какие LLM можно запустить на российской инфраструктуре?

YandexGPT 5 (managed API в Yandex Cloud), Qwen 3, Llama 3 и Mistral как open-weights через vLLM или TGI на Yandex GPU-инстансах, GigaChat от Сбера через API. Для self-hosting open-weights моделей требуется GPU с минимум 24GB памяти на инстанс.

Сколько стоит развёртывание self-hosted AI-системы?

Зависит от объёма нагрузки и выбранной модели. Managed-вариант на Yandex Cloud (GPU-инстанс под Qwen 7B плюс сопутствующая инфраструктура) — порядка нескольких сотен тысяч рублей в месяц при средней нагрузке. Полностью on-prem — крупный CAPEX на GPU-серверы (миллионы рублей), но низкий OPEX. Self-hosted окупается относительно cloud-SaaS на горизонте 12+ месяцев при стабильной нагрузке. Точная оценка — после анализа объёма и SLA.

Можно ли использовать ChatGPT для корпоративных задач в РФ?

Юридически — только для задач без ПД и без коммерческой тайны, и при доступе через VPN. OpenAI официально не оказывает услуги в РФ. Для корпоративного использования с гарантиями нужны российские альтернативы: YandexGPT, GigaChat, или open-weights self-hosted.

Что выбрать: YandexGPT или open-weights Qwen?

YandexGPT — лучше для русскоязычных задач и быстрого запуска через managed API. Qwen 3 — лучше для multilingual задач, кода и когда нужен полный контроль над весами модели (отсутствие отправки промптов вендору). Часто оптимально — оба: YandexGPT для коротких генеративных задач, Qwen для длинного контекста и анализа.

Как Кельва защищает данные клиентов в своих AI-продуктах?

Single-tenant развёртывание: для каждого enterprise-клиента отдельный инстанс инфраструктуры, изолированные эмбеддинги, отсутствие cross-tenant data leakage. Все данные в ru-central1 (Yandex Cloud), TLS in transit, шифрование at rest. Для контрактов с регулируемыми отраслями — полная сертифицированная цепочка соответствия.

Обсудить суверенное развёртывание

Если вы оцениваете AI-инструмент для PR-агентства или пресс-службы и вопрос соответствия 152-ФЗ стоит на повестке — поговорим о том, как построить суверенное решение под вашу задачу.

Связаться с командой

См. также