Ключевые тезисы
- •Передача данных через зарубежный API = трансграничная передача ПД; для большинства типов данных это нарушает 152-ФЗ
- •Managed-сервисы в РФ-юрисдикции (Yandex Cloud GenAI) закрывают часть кейсов, но не все — специальные категории ПД остаются на self-hosted
- •Self-hosted на российской инфраструктуре — единственный универсальный путь для production-обработки ПД
- •«Обезличенные» данные часто не обезличены — псевдонимизация без сертификации не закрывает требования 152-ФЗ
- •Серая зона решается архитектурно: если ПД в принципе не покидают периметр, юридический риск исключён
Канонический обзор: этот пост — практическое руководство по решению «можно/нельзя» для конкретных типов данных. Концептуальный обзор суверенной архитектуры — на странице Суверенный AI для российских предприятий.
Под 152-ФЗ многие AI-сценарии возможны при правильной архитектуре, но не все — и линия проходит не по «есть ли в данных ПД», а по тому, где обрабатывается ваш промпт. Отправили текст с именем эксперта в OpenAI API — формально совершили трансграничную передачу персональных данных. Отправили тот же текст в YandexGPT — обработка внутри РФ-юрисдикции. Self-hosted на собственном GPU — обработка вами как оператором. Этот текст — про то, что меняет вердикт в каждом конкретном случае.
Что считается персональными данными в контексте AI
Статья 3 152-ФЗ определяет персональные данные широко: любая информация, прямо или косвенно идентифицирующая физическое лицо. Это очевидно для ФИО, телефона, email. Менее очевидно — для всего того, что попадает в AI-промпты каждый день.
Контекст реидентифицирует. «Глава PR-департамента компании X в Москве» не содержит явного имени, но идентифицирует одного человека. Цитата эксперта с указанием его компании и должности — обработка ПД, даже если ФИО отсутствует. Транскрипт звонка, в котором упоминается «Иван из бухгалтерии», — обработка ПД сотрудника.
Эмбеддинги — это тоже обработка. Когда вы векторизуете текст с ПД для RAG-системы, эмбеддинг сам по себе является результатом обработки ПД. Передача эмбеддинга за рубеж — формально трансграничная передача. Это положение Роскомнадзора 2024 года, которое многие команды до сих пор не учитывают.
Распространённая ошибка — «я убрал имена, значит безопасно». Псевдонимизация (замена «Иван Петров» на «P-127») — не обезличивание. Обезличивание по 152-ФЗ требует, чтобы реидентификация была невозможна без непропорциональных усилий, что без сертифицированной процедуры почти никогда не достигается.
Поэтому правильный вопрос — не «есть ли в этих данных ПД», а «может ли AI-вендор и его инфраструктура реидентифицировать субъекта». Ответ на этот вопрос зависит от того, через какую систему проходит ваш промпт. Это и есть фокус следующих двух таблиц.
Decision table: типы данных × инфраструктура
Главный вопрос — где обрабатывается ваш промпт. Передача данных в зарубежный API — это трансграничная передача ПД (ст. 12 152-ФЗ). Передача в managed-сервис на территории РФ — обработка через лицо, осуществляющее обработку (ст. 6 152-ФЗ). Self-hosted у вас в периметре — обработка вами как оператором. Поэтому одни и те же данные могут получать разные вердикты в зависимости от того, через какую инфраструктуру они проходят.
| Тип данных | Cloud AI (зарубежный) | Cloud AI (РФ-managed) | Self-hosted на RU |
|---|---|---|---|
| Публичные пресс-релизы, опубликованные новости | Можно | Можно | Можно |
| База контактов журналистов (имена + email) | Нельзя | С оговорками¹ | Можно |
| Резюме кандидатов (HR) | Нельзя | С оговорками¹ | Можно |
| Транскрипты звонков с клиентами | Нельзя | Нельзя² | Можно |
| Медицинские данные пациентов | Нельзя | Нельзя² | С оговорками³ |
| Финансовые операции (счета, платежи) | Нельзя | Нельзя² | Можно |
| Анонимизированные аналитические агрегаты (без идентификаторов) | Можно | Можно | Можно |
¹ С согласием субъекта ПД и при наличии договора с обработчиком (managed-сервис как «лицо, осуществляющее обработку»).
² Специальные категории ПД (медицина, финансы) — требуют отдельных оснований обработки даже на РФ-территории; managed-сервис без сертифицированной чистой среды не закрывает требования.
³ Self-hosted допустим при выполнении требований 152-ФЗ + отраслевых стандартов (МЗ РФ, банковский надзор) — архитектурно возможно, юридически требует независимой проверки.
Эта таблица — отправная точка, не закрытие вопроса. Чем чувствительнее данные, тем больше дополнительных требований появляется поверх 152-ФЗ — отраслевые стандарты, требования отдельных регуляторов, договоры обработки. Но архитектурный вектор стабилен: чем ближе вы к self-hosted в РФ, тем меньше пограничных вопросов.
Decision table: типичные AI-сценарии
Вторая таблица — типичные сценарии использования, которые мы регулярно видим в работе с PR- и маркетинговыми командами. Колонка «Что меняет вердикт» — критическая: один и тот же сценарий может быть допустим в одних условиях и нарушением в других.
| Сценарий использования | Допустимо? | Что меняет вердикт |
|---|---|---|
| Суммаризация публикуемого контента через ChatGPT API | Можно | Если контент не содержит ПД третьих лиц, не упомянутых в публичной версии |
| Анализ email-переписки с клиентами через ChatGPT API | Нельзя | Только self-hosted или managed РФ-сервис |
| Генерация комментария спикера с упоминанием его имени через YandexGPT | Можно | При наличии согласия спикера на обработку его данных AI-системой |
| Векторизация базы документов с ПД на pgvector self-hosted | Можно | Инстанс pgvector должен находиться в РФ-периметре |
| Использование Perplexity API для исследования рынка | С оговорками | Если запрос не содержит ПД клиента/сотрудников; ответ Perplexity сам по себе не является обработкой ваших ПД |
| Загрузка CSV с базой клиентов в ChatGPT для классификации | Нельзя | Это явная трансграничная передача ПД — нарушение ст. 12 |
Закономерность: вердикт меняет не сам AI-инструмент, а контекст использования — какие данные попадают в промпт и где находится endpoint. Поэтому стандартный ответ «можно ли использовать [конкретный сервис]» юридически не существует — он всегда зависит от пайплайна.
Серые зоны: где даже юристы расходятся
Не все случаи решаются таблицей. Есть зоны, в которых даже юристы по защите данных расходятся в формулировках — и в которых архитектурное решение часто проще, чем юридическое.
Псевдонимизация без сертификации. Замена «Иван Петров» на «P-127» в датасете кажется обезличиванием, но это не оно. Если у вас сохраняется mapping-таблица — это псевдонимизация, что значит данные остаются персональными по 152-ФЗ. Полное обезличивание — отдельная техническая процедура, требующая, чтобы реидентификация была невозможна даже при сопоставлении с другими источниками. Без сертифицированной процедуры эта планка почти никогда не достигается.
Контекстуальная реидентификация. «Глава пресс-службы крупного банка в Санкт-Петербурге» — формально не содержит ФИО. Фактически — в большинстве случаев идентифицирует одного человека. Промпт с такой формулировкой — обработка ПД, даже если явных полей идентификации в нём нет. Это серая зона, потому что граница «достаточно конкретно» субъективна — но трактуется обычно не в пользу оператора.
Цитаты эксперта. Цитата с указанием имени и должности — одновременно ПД (имя) и потенциально объект авторского права (само высказывание). Юридически — два разных режима в одном промпте, и оба требуют соответствующих оснований.
Когда вы в серой зоне — выбирай в пользу осторожности. Эта зона — главная причина, почему мы строим архитектуру так, чтобы ПД в принципе не покидали российский периметр: если данные не уезжают, серая зона исчезает.
⚖ Детали соответствия
Этот раздел — обзор законодательной базы для тех, кто хочет понимать механику регулирования AI-сценариев по 152-ФЗ. Он не заменяет юридическую консультацию.
Ст. 18 ч. 5 — первичное хранение. Запись, систематизация, накопление, хранение, уточнение и извлечение ПД граждан РФ должны выполняться через базы данных, расположенные на территории России. Ключевое слово — «первичное». «Бэкап в РФ при основном хранении в США» не закрывает требование. Мастер-источник данных должен быть в РФ — иначе по сути нет «локализации обработки».
Ст. 12 — трансграничная передача. Передача ПД за пределы РФ требует либо письменного согласия субъекта на трансграничную передачу, либо нахождения страны-получателя в утверждённом перечне. Перечень включает Беларусь, Казахстан, Армению и ряд других государств. США, ЕС, Великобритания — не входят с 2022 года. Это значит: любой API-запрос в OpenAI, Anthropic, Google или Mistral формально является трансграничной передачей ПД, если в промпте есть ПД.
Роль AI-вендора как «лица, осуществляющего обработку». Когда вы передаёте данные клиента в AI-сервис, вы либо оператор (если определяете цели обработки), либо лицо, осуществляющее обработку (если действуете по поручению другого оператора). AI-вендор, обрабатывающий ваши данные на своей инфраструктуре, — тоже «лицо, осуществляющее обработку». Это значит: договор поручения по ст. 6 152-ФЗ, требования по локализации передаются по цепочке, ответственность распределяется по договору, но не исчезает.
Сертификация ФСТЭК. Сертификат ФСТЭК подтверждает соответствие техническим требованиям к защите информации. Он критичен для систем, обрабатывающих ПД, но не отменяет требования к локализации обработки. Managed-сервис с сертификатом ФСТЭК, размещённый в РФ, по договору поручения — рабочая конфигурация. Сертификат сам по себе — нет.
Прецеденты Роскомнадзора 2024–2025. Регулятор начал точечно работать по AI-сценариям: проверки операторов, использующих зарубежные API для обработки клиентских данных, фиксация нарушений трансграничной передачи через LLM, штрафы за отсутствие договоров поручения с AI-вендорами. Конкретных опубликованных решений пока немного, но направление давления очевидно.
Важно. Этот раздел — обзор законодательства по состоянию на 2026 год, не юридическая консультация. Для оценки конкретного решения и его соответствия 152-ФЗ обратитесь к юристу по защите данных. Кельва строит инфраструктуру, соответствующую закону по архитектуре, — но окончательная юридическая оценка остаётся за вашей организацией.
Когда self-hosted — единственный путь
Есть сценарии, в которых self-hosted на российской инфраструктуре — де-факто единственный путь. Это production-обработка ПД клиентов в регулируемых отраслях, специальные категории ПД (медицина, биометрия, политические взгляды), контракты с государственными заказчиками, корпоративные системы с обязательством по 152-ФЗ перед всеми пользователями.
Что меняется при переходе на self-hosted: CAPEX растёт (закупка GPU-серверов или резервирование GPU-инстансов в Yandex Cloud), OPEX падает после развёртывания (нет per-token billing), контроль увеличивается (вы видите каждый промпт и каждый ответ), vendor-lock-in исчезает (open-weights модели — Qwen, Llama, Mistral — работают на любой инфраструктуре с достаточным GPU).
Конкретный пример — наш продукт tender-docs-app. Он построен по полностью суверенной архитектуре: данные тендеров хранятся в Yandex Cloud (ru-central1), эмбеддинги строятся локально на тех же инстансах, что и ретривал, инференс работает на YandexGPT и Qwen self-hosted, оркестрация — n8n внутри периметра. Промпт с ПД клиента никогда не покидает российский периметр — потому что некуда покидать, всё внутри.
Канонический обзор архитектуры — на странице Суверенный AI для российских предприятий. Там разобраны слои стека, сравнение вариантов развёртывания и подход Кельвы к продуктам с разной степенью суверенности.
Закрыть «можно ли» один раз
Если вы оцениваете AI-стек для агентства или пресс-службы и хотите снять «серую зону» 152-ФЗ архитектурно — поговорим. Мы оценим конкретный пайплайн и предложим путь к суверенной конфигурации без переписывания инструментов.
