152-ФЗ и AI: что можно и что нельзя выгружать

Ключевые тезисы

•Передача данных через зарубежный API = трансграничная передача ПД; для большинства типов данных это нарушает 152-ФЗ
•Managed-сервисы в РФ-юрисдикции (Yandex Cloud GenAI) закрывают часть кейсов, но не все — специальные категории ПД остаются на self-hosted
•Self-hosted на российской инфраструктуре — единственный универсальный путь для production-обработки ПД
•«Обезличенные» данные часто не обезличены — псевдонимизация без сертификации не закрывает требования 152-ФЗ
•Серая зона решается архитектурно: если ПД в принципе не покидают периметр, юридический риск исключён

Канонический обзор: этот пост — практическое руководство по решению «можно/нельзя» для конкретных типов данных. Концептуальный обзор суверенной архитектуры — на странице Суверенный AI для российских предприятий.

Под 152-ФЗ многие AI-сценарии возможны при правильной архитектуре, но не все — и линия проходит не по «есть ли в данных ПД», а по тому, где обрабатывается ваш промпт. Отправили текст с именем эксперта в OpenAI API — формально совершили трансграничную передачу персональных данных. Отправили тот же текст в YandexGPT — обработка внутри РФ-юрисдикции. Self-hosted на собственном GPU — обработка вами как оператором. Этот текст — про то, что меняет вердикт в каждом конкретном случае.

Что считается персональными данными в контексте AI

Статья 3 152-ФЗ определяет персональные данные широко: любая информация, прямо или косвенно идентифицирующая физическое лицо. Это очевидно для ФИО, телефона, email. Менее очевидно — для всего того, что попадает в AI-промпты каждый день.

Контекст реидентифицирует. «Глава PR-департамента компании X в Москве» не содержит явного имени, но идентифицирует одного человека. Цитата эксперта с указанием его компании и должности — обработка ПД, даже если ФИО отсутствует. Транскрипт звонка, в котором упоминается «Иван из бухгалтерии», — обработка ПД сотрудника.

Эмбеддинги — это тоже обработка. Когда вы векторизуете текст с ПД для RAG-системы, эмбеддинг сам по себе является результатом обработки ПД. Передача эмбеддинга за рубеж — формально трансграничная передача. Это положение Роскомнадзора 2024 года, которое многие команды до сих пор не учитывают.

Распространённая ошибка — «я убрал имена, значит безопасно». Псевдонимизация (замена «Иван Петров» на «P-127») — не обезличивание. Обезличивание по 152-ФЗ требует, чтобы реидентификация была невозможна без непропорциональных усилий, что без сертифицированной процедуры почти никогда не достигается.

Поэтому правильный вопрос — не «есть ли в этих данных ПД», а «может ли AI-вендор и его инфраструктура реидентифицировать субъекта». Ответ на этот вопрос зависит от того, через какую систему проходит ваш промпт. Это и есть фокус следующих двух таблиц.

Decision table: типы данных × инфраструктура

Главный вопрос — где обрабатывается ваш промпт. Передача данных в зарубежный API — это трансграничная передача ПД (ст. 12 152-ФЗ). Передача в managed-сервис на территории РФ — обработка через лицо, осуществляющее обработку (ст. 6 152-ФЗ). Self-hosted у вас в периметре — обработка вами как оператором. Поэтому одни и те же данные могут получать разные вердикты в зависимости от того, через какую инфраструктуру они проходят.

Тип данных	Cloud AI (зарубежный)	Cloud AI (РФ-managed)	Self-hosted на RU
Публичные пресс-релизы, опубликованные новости	Можно	Можно	Можно
База контактов журналистов (имена + email)	Нельзя	С оговорками¹	Можно
Резюме кандидатов (HR)	Нельзя	С оговорками¹	Можно
Транскрипты звонков с клиентами	Нельзя	Нельзя²	Можно
Медицинские данные пациентов	Нельзя	Нельзя²	С оговорками³
Финансовые операции (счета, платежи)	Нельзя	Нельзя²	Можно
Анонимизированные аналитические агрегаты (без идентификаторов)	Можно	Можно	Можно

¹ С согласием субъекта ПД и при наличии договора с обработчиком (managed-сервис как «лицо, осуществляющее обработку»).

² Специальные категории ПД (медицина, финансы) — требуют отдельных оснований обработки даже на РФ-территории; managed-сервис без сертифицированной чистой среды не закрывает требования.

³ Self-hosted допустим при выполнении требований 152-ФЗ + отраслевых стандартов (МЗ РФ, банковский надзор) — архитектурно возможно, юридически требует независимой проверки.

Эта таблица — отправная точка, не закрытие вопроса. Чем чувствительнее данные, тем больше дополнительных требований появляется поверх 152-ФЗ — отраслевые стандарты, требования отдельных регуляторов, договоры обработки. Но архитектурный вектор стабилен: чем ближе вы к self-hosted в РФ, тем меньше пограничных вопросов.

Decision table: типичные AI-сценарии

Вторая таблица — типичные сценарии использования, которые мы регулярно видим в работе с PR- и маркетинговыми командами. Колонка «Что меняет вердикт» — критическая: один и тот же сценарий может быть допустим в одних условиях и нарушением в других.

Сценарий использования	Допустимо?	Что меняет вердикт
Суммаризация публикуемого контента через ChatGPT API	Можно	Если контент не содержит ПД третьих лиц, не упомянутых в публичной версии
Анализ email-переписки с клиентами через ChatGPT API	Нельзя	Только self-hosted или managed РФ-сервис
Генерация комментария спикера с упоминанием его имени через YandexGPT	Можно	При наличии согласия спикера на обработку его данных AI-системой
Векторизация базы документов с ПД на pgvector self-hosted	Можно	Инстанс pgvector должен находиться в РФ-периметре
Использование Perplexity API для исследования рынка	С оговорками	Если запрос не содержит ПД клиента/сотрудников; ответ Perplexity сам по себе не является обработкой ваших ПД
Загрузка CSV с базой клиентов в ChatGPT для классификации	Нельзя	Это явная трансграничная передача ПД — нарушение ст. 12

Закономерность: вердикт меняет не сам AI-инструмент, а контекст использования — какие данные попадают в промпт и где находится endpoint. Поэтому стандартный ответ «можно ли использовать [конкретный сервис]» юридически не существует — он всегда зависит от пайплайна.

Серые зоны: где даже юристы расходятся

Не все случаи решаются таблицей. Есть зоны, в которых даже юристы по защите данных расходятся в формулировках — и в которых архитектурное решение часто проще, чем юридическое.

Псевдонимизация без сертификации. Замена «Иван Петров» на «P-127» в датасете кажется обезличиванием, но это не оно. Если у вас сохраняется mapping-таблица — это псевдонимизация, что значит данные остаются персональными по 152-ФЗ. Полное обезличивание — отдельная техническая процедура, требующая, чтобы реидентификация была невозможна даже при сопоставлении с другими источниками. Без сертифицированной процедуры эта планка почти никогда не достигается.

Контекстуальная реидентификация. «Глава пресс-службы крупного банка в Санкт-Петербурге» — формально не содержит ФИО. Фактически — в большинстве случаев идентифицирует одного человека. Промпт с такой формулировкой — обработка ПД, даже если явных полей идентификации в нём нет. Это серая зона, потому что граница «достаточно конкретно» субъективна — но трактуется обычно не в пользу оператора.

Цитаты эксперта. Цитата с указанием имени и должности — одновременно ПД (имя) и потенциально объект авторского права (само высказывание). Юридически — два разных режима в одном промпте, и оба требуют соответствующих оснований.

Когда вы в серой зоне — выбирай в пользу осторожности. Эта зона — главная причина, почему мы строим архитектуру так, чтобы ПД в принципе не покидали российский периметр: если данные не уезжают, серая зона исчезает.

⚖ Детали соответствия

Этот раздел — обзор законодательной базы для тех, кто хочет понимать механику регулирования AI-сценариев по 152-ФЗ. Он не заменяет юридическую консультацию.

Ст. 18 ч. 5 — первичное хранение. Запись, систематизация, накопление, хранение, уточнение и извлечение ПД граждан РФ должны выполняться через базы данных, расположенные на территории России. Ключевое слово — «первичное». «Бэкап в РФ при основном хранении в США» не закрывает требование. Мастер-источник данных должен быть в РФ — иначе по сути нет «локализации обработки».

Ст. 12 — трансграничная передача. Передача ПД за пределы РФ требует либо письменного согласия субъекта на трансграничную передачу, либо нахождения страны-получателя в утверждённом перечне. Перечень включает Беларусь, Казахстан, Армению и ряд других государств. США, ЕС, Великобритания — не входят с 2022 года. Это значит: любой API-запрос в OpenAI, Anthropic, Google или Mistral формально является трансграничной передачей ПД, если в промпте есть ПД.

Роль AI-вендора как «лица, осуществляющего обработку». Когда вы передаёте данные клиента в AI-сервис, вы либо оператор (если определяете цели обработки), либо лицо, осуществляющее обработку (если действуете по поручению другого оператора). AI-вендор, обрабатывающий ваши данные на своей инфраструктуре, — тоже «лицо, осуществляющее обработку». Это значит: договор поручения по ст. 6 152-ФЗ, требования по локализации передаются по цепочке, ответственность распределяется по договору, но не исчезает.

Сертификация ФСТЭК. Сертификат ФСТЭК подтверждает соответствие техническим требованиям к защите информации. Он критичен для систем, обрабатывающих ПД, но не отменяет требования к локализации обработки. Managed-сервис с сертификатом ФСТЭК, размещённый в РФ, по договору поручения — рабочая конфигурация. Сертификат сам по себе — нет.

Прецеденты Роскомнадзора 2024–2025. Регулятор начал точечно работать по AI-сценариям: проверки операторов, использующих зарубежные API для обработки клиентских данных, фиксация нарушений трансграничной передачи через LLM, штрафы за отсутствие договоров поручения с AI-вендорами. Конкретных опубликованных решений пока немного, но направление давления очевидно.

Важно. Этот раздел — обзор законодательства по состоянию на 2026 год, не юридическая консультация. Для оценки конкретного решения и его соответствия 152-ФЗ обратитесь к юристу по защите данных. Кельва строит инфраструктуру, соответствующую закону по архитектуре, — но окончательная юридическая оценка остаётся за вашей организацией.

Когда self-hosted — единственный путь

Есть сценарии, в которых self-hosted на российской инфраструктуре — де-факто единственный путь. Это production-обработка ПД клиентов в регулируемых отраслях, специальные категории ПД (медицина, биометрия, политические взгляды), контракты с государственными заказчиками, корпоративные системы с обязательством по 152-ФЗ перед всеми пользователями.

Что меняется при переходе на self-hosted: CAPEX растёт (закупка GPU-серверов или резервирование GPU-инстансов в Yandex Cloud), OPEX падает после развёртывания (нет per-token billing), контроль увеличивается (вы видите каждый промпт и каждый ответ), vendor-lock-in исчезает (open-weights модели — Qwen, Llama, Mistral — работают на любой инфраструктуре с достаточным GPU).

Конкретный пример — наш продукт tender-docs-app. Он построен по полностью суверенной архитектуре: данные тендеров хранятся в Yandex Cloud (ru-central1), эмбеддинги строятся локально на тех же инстансах, что и ретривал, инференс работает на YandexGPT и Qwen self-hosted, оркестрация — n8n внутри периметра. Промпт с ПД клиента никогда не покидает российский периметр — потому что некуда покидать, всё внутри.

Канонический обзор архитектуры — на странице Суверенный AI для российских предприятий. Там разобраны слои стека, сравнение вариантов развёртывания и подход Кельвы к продуктам с разной степенью суверенности.

Закрыть «можно ли» один раз

Если вы оцениваете AI-стек для агентства или пресс-службы и хотите снять «серую зону» 152-ФЗ архитектурно — поговорим. Мы оценим конкретный пайплайн и предложим путь к суверенной конфигурации без переписывания инструментов.

Вопросы и ответы

Можно ли использовать ChatGPT для редактирования наших пресс-релизов?

Да, если в драфтах не упомянуты имена не-публичных лиц (имя клиента в готовом релизе — публичная информация; имя сотрудника отдела маркетинга, цитируемого в комментариях, — нет). Безопаснее всего: финальный публичный текст можно прогонять через ChatGPT, внутренние черновики с участниками — нет.

Что считается «обезличенными» данными для целей 152-ФЗ?

Только данные, по которым физическое лицо не может быть идентифицировано прямо или косвенно — даже при сопоставлении с другими общедоступными источниками. Замена имён на «Клиент №1» при сохранении должности, компании, города почти всегда не закрывает обезличивание. Сертифицированная процедура обезличивания по 152-ФЗ — отдельная техническая задача, не «достаточно убрать ФИО».

Если у вендора есть сертификат ФСТЭК — можно загружать ПД?

Сертификат ФСТЭК подтверждает соответствие техническим требованиям защиты информации, но не отменяет требования 152-ФЗ по локализации обработки. Сочетание сертификата + размещение в РФ + договор поручения с обработчиком — рабочая конфигурация. Сертификат сам по себе — нет.

Можно ли отправлять анонимизированные эмбеддинги в зарубежный векторный сервис?

Юридически — серая зона. Эмбеддинг ПД сам по себе является обработкой ПД (см. позицию Роскомнадзора 2024). Передача эмбеддингов за рубеж формально подпадает под трансграничную передачу. На практике: если эмбеддинги действительно невозможно реидентифицировать (нет mapping-таблицы, нет вспомогательных полей), риск ниже, но юридически вопрос не закрыт. Рекомендуем self-hosted vector store для прода с ПД.

Какие санкции грозят за нарушение 152-ФЗ при работе с AI?

С 2024 года штрафы для юридических лиц увеличены: за нарушение трансграничной передачи — от 1 до 6 млн руб. с возможностью оборотных штрафов до 3% от годовой выручки. Помимо штрафа — блокировка обработки данных в РФ, реестр нарушителей Роскомнадзора, репутационные последствия для тендеров. Регуляторное давление в 2025 году усилилось, особенно по AI-сценариям.