Документация
Учебный центр

Освойте Telegram Bot App с помощью подробных руководств, инструкций и документации

Быстрые ссылки

Сканирование профилей и интеграция с поведенческой базой данных

Введение

Большинство систем модерации сосредоточены исключительно на содержании сообщений, однако продвинутые спам-операции часто выдают себя через профили пользователей задолго до публикации первого сообщения. Система сканирования профилей и интеграции с поведенческими базами данных обеспечивает проактивную защиту: анализирует профили пользователей, сверяет их с внешними базами спама и выявляет аккаунты с высоким уровнем риска до того, как они смогут нарушить порядок в вашем сообществе.

Эта расширенная функция автоматически работает в фоновом режиме: проверяет изображение профиля каждого нового участника на неподобающий контент, анализирует текст описания на признаки спама и обращается к внешним поведенческим базам данных, чтобы выяснить, был ли пользователь отмечен за спам или злоупотребления в других сообществах. Такой многоуровневый подход позволяет выявлять спам-аккаунты, которые могли бы пройти проверку CAPTCHA или не сработать в системах обнаружения, основанных на содержании сообщений.

В отличие от реактивной модерации, которая ждёт, пока нарушение уже произойдёт, сканирование профилей позволяет заранее выявлять потенциальные проблемы. Новый пользователь с изображением профиля в стиле NSFW, подозрительным описанием и записями в базах спама сразу получает повышенную оценку риска, что даёт администраторам возможность принять взвешенные меры ещё до того, как аккаунт что-либо опубликует в вашей группе. Такой проактивный подход значительно снижает воздействие спама и защищает ваше сообщество от скоординированных атак с использованием свежих аккаунтов.

Как это работает

Сканирование фото профиля

Каждый раз, когда пользователь вступает в одну из ваших групп (или когда бот впервые обнаруживает уже существующего участника), система получает его фото профиля Telegram через официальный API и анализирует его тем же механизмом обнаружения NSFW, который проверяет изображения в сообщениях. Анализ проверяет фото профиля на порнографический контент, изображения сексуального характера, откровенный контент, а также поддельные или изменённые изображения.

В результате проверки формируется оценка уверенности (от 0.0 до 1.0), показывающая вероятность того, что фото профиля содержит неприемлемый контент. Срабатывания с высокой уверенностью (обычно выше 0.7) приводят к тому, что пользователь получает отметку о NSFW-фото профиля, которая учитывается в общей оценке риска спама. Эта отметка отображается в отчётах User Intelligence, позволяя администраторам видеть, у каких участников есть проблемные фото профиля, даже если они не нарушали правила в отношении содержимого сообщений.

Сканирование фото профиля работает независимо от проверки содержимого сообщений: можно включить сканирование профилей при отключённой проверке изображений в сообщениях или наоборот. Эта функция использует ту же премиальную квоту, что и сканирование изображений в сообщениях, поэтому анализ фото профиля засчитывается в ваш ежемесячный лимит проверок изображений. Однако, поскольку сканирование профиля выполняется только один раз для каждого пользователя (с периодическими обновлениями), расход квоты минимален по сравнению с проверкой каждого изображения, опубликованного в чате.

Система интеллектуально обрабатывает пользователей без фото профиля (это часто встречается как у обычных пользователей, так и у спам-ботов). Само отсутствие фото профиля немного повышает риск спама, поскольку многие автоматизированные спам-аккаунты не настраивают профиль. Однако сам по себе этот фактор имеет небольшой вес: алгоритм учитывает, что многие реальные пользователи тоже не устанавливают фото профиля, поэтому его отсутствие становится значимым только в сочетании с другими подозрительными сигналами.

Анализ содержимого био

Вместе с фото профиля система получает и анализирует текст био пользователя (раздел "About" в профилях Telegram). Анализ био ищет типичные признаки спама, включая рекламные формулировки, чрезмерное количество ссылок, шаблоны финансовых предложений, ключевые слова мошеннических схем и другие текстовые маркеры, связанные со спам-аккаунтами.

Анализ био использует сопоставление с шаблонами и поиск ключевых слов для выявления подозрительного содержимого. У обычных пользователей био, как правило, короткое и личное либо вовсе отсутствует. Спам-аккаунты часто заполняют био рекламными материалами, предложениями криптовалютных мошеннических схем, партнёрскими ссылками или скопированным спам-текстом. Система распознавания шаблонов выявляет такие характерные спам-био и соответствующим образом помечает пользователя.

Как и фото профиля, анализ био влияет на общую оценку риска спама, отображаемую в отчётах User Intelligence. Пользователь, чьё био содержит признаки спама, получает повышенный рейтинг риска ещё до публикации сообщений, что позволяет принимать проактивные решения по модерации.

Интеграция с внешней поведенческой базой данных

Сканирование профилей также интегрируется с внешними базами данных спама, которые агрегируют отчёты из множества групп Telegram. Когда пользователь вступает в вашу группу, система запрашивает эти базы данных, чтобы проверить, встречается ли ID пользователя в записях об известных спамерах, мошенниках или аккаунтах, допускавших злоупотребления.

Эти внешние базы данных собирают отчёты от участвующих сообществ о пользователях, которые нарушали правила, публиковали спам, участвовали в мошеннических схемах или демонстрировали другое проблемное поведение. Агрегированные данные формируют совместную сеть защиты, в которой сообщества обмениваются сведениями о недобросовестных участниках, не позволяя одним и тем же спам-аккаунтам снова и снова атаковать разные группы.

Запрос к базе данных возвращает сведения о том, был ли пользователь отмечен в отчётах, сколько отчётов существует и какие типы нарушений были указаны (спам, мошенничество, злоупотребления и т. д.). Эти внешние данные учитываются при расчёте риска спама, значительно повышая оценку риска для пользователей с большим количеством негативных записей и почти не влияя на пользователей с чистой историей или без записей в базе данных.

Важно, что система использует эти данные как один из многих сигналов, а не автоматически банит пользователей исключительно на основании внешних отчётов. В любой системе отчётности возможны ложные срабатывания, поэтому алгоритм рассматривает отметки из базы данных как информативные, но не окончательные. Пользователи с записями в базах данных спама, но без нарушений в вашей конкретной группе сохраняют возможность участвовать в общении, хотя за ними ведётся более пристальное наблюдение.

Автоматическое обновление профиля

Профили пользователей не статичны: спамеры могут обновлять фото профиля или био после вступления в группы, пытаясь выглядеть более легитимно. Чтобы поддерживать актуальные данные, система автоматически обновляет сведения профиля каждые 24 часа для активных пользователей.

Во время циклов обновления система повторно сканирует фото профиля на NSFW-контент, заново анализирует текст био на признаки спама и повторно запрашивает внешние базы данных на предмет обновлённых записей. Если профиль пользователя значительно меняется (например, он добавляет NSFW-фото профиля, которого не было при вступлении), обновлённая оценка риска отражает эту новую информацию.

Механизм обновления гарантирует, что оценки риска на основе профиля остаются точными, даже когда пользователи изменяют свои профили. Он также помогает выявлять случаи компрометации аккаунтов: ранее легитимная учётная запись, захваченная спамерами, покажет резкие изменения профиля, которые приведут к повышению оценки риска.

Интеграция с AI Spam Intelligence

Все данные сканирования профиля напрямую передаются в алгоритм расчёта риска системы AI Spam Intelligence. Спам-рейтинг (от 0.0 до 1.0), определяющий, будет ли к пользователям применено автоматическое удаление, учитывает:

  • Статус NSFW-фото профиля (наличие и уровень уверенности)
  • Признаки спама в содержимом био
  • Отметки во внешних базах данных и количество нарушений
  • Отсутствие фото профиля (второстепенный фактор)
  • Отсутствие Telegram handle (отдельный, но связанный фактор)

Эти сигналы на основе профиля объединяются с поведенческими сигналами (шаблоны сообщений, история нарушений, характеристики членства в группах), формируя комплексные оценки риска. Пользователи, отмеченные при сканировании профиля, получают более высокую начальную оценку риска, тогда как чистые профили помогают снизить базовый уровень риска.

Такая интеграция означает, что сканирование профилей не просто предоставляет информацию — оно напрямую влияет на применение мер, когда включена AI Spam Intelligence. Пользователи с крайне подозрительными профилями (NSFW-изображения + спам-био + обширные записи в базах данных) могут получить спам-рейтинг выше 0.75 сразу после вступления, что приведёт к автоматическому удалению ещё до того, как они что-либо опубликуют.

Конфигурация

Включение сканирования профилей

Сканирование профилей настраивается двумя отдельными параметрами в конфигурации вашей группы:

  1. Перейдите на страницу управления вашей группой в панели
  2. Выберите вкладку «Настройки»
  3. Нажмите на подвкладку «AI Moderation»
  4. Найдите раздел «Сканирование медиа»
  5. Включите переключатель «Сканировать изображения профилей пользователей» для анализа аватаров
  6. Включите переключатель «Сканировать текст профиля пользователя» для анализа содержимого био

Оба параметра являются функциями бесплатного тарифа и доступны всем группам независимо от уровня подписки. Однако сканирование изображений профиля расходует квоту на сканирование изображений из вашего тарифного плана, когда изображения фактически анализируются (сканирование текста био квоту не расходует).

Эти параметры работают независимо друг от друга — вы можете включить сканирование изображений без сканирования текста или наоборот, в зависимости от ваших приоритетов и доступной квоты.

Как расходуется квота

Сканирование изображений профиля учитывается в вашей ежемесячной квоте на сканирование изображений:

  • Basic (Free): 500 сканирований/месяц
  • Gold: 2 000 сканирований/месяц
  • Platinum: 5 000 сканирований/месяц
  • Ultimate: 10 000 сканирований/месяц

Каждый анализ изображения профиля расходует одно сканирование из вашей квоты. Система сканирует изображения профиля:

  • Когда новый пользователь вступает в вашу группу (первичное сканирование)
  • Во время 24-часовых циклов обновления для активных пользователей
  • При ручном запросе через отчеты User Intelligence

Для большинства сообществ расход квоты на сканирование профилей минимален. Группа с 1 000 участников может использовать 1 000 сканирований для первичного анализа плюс около 1 000 сканирований в месяц на регулярные циклы обновления (если все участники остаются активными). Это оставляет значительную часть квоты для сканирования изображений в сообщениях во всех сообществах, кроме самых крупных.

Если квота вызывает опасения, вы можете включить сканирование текста профиля (бесплатно, без расхода квоты), оставив сканирование изображений отключенным, или включать сканирование изображений только в периоды повышенного риска (когда ожидаются волны спама).

Просмотр результатов сканирования профиля

Чтобы увидеть результаты сканирования профиля для отдельных пользователей:

  1. Перейдите в «User Intelligence» из панели
  2. Найдите пользователя по имени, username или ID
  3. Откройте его отчет User Intelligence
  4. В отчете отображаются:
    • Индикатор «NSFW Profile Picture», если сработал флаг
    • Рейтинг спама с учетом всех сигналов на основе профиля
    • Статус во внешней базе данных (если доступен)
    • Полная история нарушений

Данные сканирования профиля отображаются прямо в существующем интерфейсе отчетов User Intelligence, без необходимости открывать отдельные представления или переходить в дополнительные разделы.

Интеграция с внешней базой данных

Интеграция с внешними поведенческими базами данных работает автоматически и не требует настройки. Система запрашивает базы данных во время анализа профиля и прозрачно учитывает результаты при расчете риска спама.

Администраторы не могут отключить запросы к внешним базам данных (иначе спамеры смогли бы обходить обнаружение), но эти данные являются лишь одним из множества факторов при оценке риска. Пользователи по-прежнему могут участвовать в вашей группе даже при наличии негативных записей в базе данных, если их фактическое поведение именно в вашем сообществе остается чистым.

Реальные сценарии

Сценарий 1: предотвращение скоординированной спам-атаки

Сообщество для обсуждения криптовалют сталкивается с волной мошеннических бот-аккаунтов, которые вступают одновременно. У всех аккаунтов схожие признаки: нет фотографий профиля, в описаниях — спам-тексты на криптотематику, а время создания — совсем недавнее.

Сканирование профилей сразу помечает эти аккаунты на основе анализа содержимого описания. Текст в био, характерный для спама, повышает их риск до диапазона 0.60–0.70 ещё до того, как они успевают отправить сообщения. В сочетании с отсутствием фотографий профиля и юзернеймов несколько аккаунтов превышают порог спам-рейтинга 0.75.

При включённом AI Spam Intelligence такие аккаунты с высоким риском автоматически удаляются в течение нескольких секунд после вступления — ещё до того, как они смогут опубликовать мошеннические ссылки. Те немногие аккаунты, которые остаются ниже порога 0.75, продолжают отслеживаться, а их первое спам-сообщение запускает как обнаружение по содержимому, так и повышение риск-оценки выше порога для немедленного удаления.

Без сканирования профилей эти аккаунты смогли бы успешно вступить и опубликовать первые спам-сообщения до того, как сработало бы обнаружение. Сканирование профилей остановило атаку на входе, а не постфактум.

Сценарий 2: обнаружение взломанного аккаунта

Аккаунт давнего участника сообщества взламывают злоумышленники: они меняют фотографию профиля на NSFW-контент и добавляют в био спам-ссылки. Настоящий пользователь не знает, что его аккаунт был взломан.

Во время следующего 24-часового цикла обновления профилей система обнаруживает NSFW-фотографию профиля и спам-био там, где раньше был чистый профиль. Отчёт User Intelligence показывает резкий скачок спам-рейтинга с 0.15 (доверенный пользователь) до 0.68 (повышенный риск) из-за изменений в профиле.

Администраторы, просматривающие отчёт, замечают подозрительное изменение профиля у ранее доверенного участника. Они связываются с пользователем вне Telegram, выясняют факт взлома и помогают ему защитить аккаунт до того, как он будет использован для спама в сообществе.

Без автоматического обновления профиля взломанный аккаунт выглядел бы легитимным (на основе прошлой истории поведения) до тех пор, пока не начал бы публиковать спам, что могло бы серьёзно нарушить работу сообщества.

Сценарий 3: управление ложными срабатываниями

В художественное сообщество вступает реальный новый пользователь с фотографией профиля, на которой изображено классическое произведение искусства с обнажёнными фигурами — исторически значимая работа, но технически содержащая наготу, из-за чего NSFW-детектор срабатывает со средней уверенностью (0.62).

Сканирование профиля помечает NSFW-фотографию профиля, повышая начальный спам-рейтинг пользователя до 0.45 (всё ещё ниже порога автоматического исключения 0.75). Администраторы, просматривающие отчёты о новых участниках, замечают повышенный показатель и вручную проверяют профиль пользователя.

Они понимают, что на фотографии профиля — классическое искусство, а не порнография, и отмечают, что в био пользователь описывает себя как студента, изучающего историю искусства. Средний уровень уверенности (0.62, а не 0.95+) подтверждает, что это пограничный контент, а не очевидная порнография.

Администраторы решают наблюдать за пользователем, а не банить его заранее. Пользователь публикует уместный контент об искусстве, накапливает положительную историю взаимодействий, и его спам-рейтинг постепенно снижается до 0.25, поскольку поведенческие сигналы перевешивают первоначальную отметку профиля.

Этот сценарий показывает, что сканирование профилей предоставляет информацию, не вынуждая к автоматическому действию, и позволяет применять более тонкую человеческую оценку в неоднозначных случаях.

Сценарий 4: сопоставление с внешними базами данных

Пользователь вступает в несколько связанных игровых сообществ, которыми управляет одна и та же команда модерации. В первом сообществе пользователь публикует спам и получает бан. Это нарушение передаётся во внешние базы поведенческих данных.

Когда тот же пользователь вступает во второе связанное сообщество (с того же аккаунта), сканирование профиля отправляет запросы во внешние базы данных и обнаруживает недавний спам-отчёт из первого сообщества. Эта межгрупповая аналитика сразу повышает спам-рейтинг пользователя во втором сообществе до 0.55, несмотря на отсутствие локальных нарушений.

Повышенный риск приводит к более пристальному наблюдению. Когда пользователь публикует первое сообщение, оно содержит спам-ссылку, которую сразу обнаруживает сканирование содержимого. Сочетание отметки из внешней базы данных и фактического нарушения поднимает спам-рейтинг выше 0.75, что запускает автоматическое удаление.

Без интеграции с внешними базами данных каждому сообществу пришлось бы самостоятельно выявлять спамера на собственном опыте. Интеграция с базами данных позволила обеспечить проактивную защиту на основе данных из связанных сообществ.

Сценарий 5: сортировка по профилю

Крупное публичное сообщество с более чем 10 000 участников ежедневно получает десятки заявок на вступление. Вручную проверять каждого нового участника непрактично, но администраторы хотят отслеживать новичков с высоким уровнем риска.

Они внедряют рабочий процесс сканирования профилей:

  1. Все новые участники автоматически проходят сканирование (фотография профиля + био + внешняя база данных)
  2. Раз в неделю администраторы просматривают отчёты User Intelligence, отфильтрованные по признаку "вступили за последние 7 дней"
  3. Они сосредотачивают внимание на пользователях со спам-рейтингом выше 0.50
  4. Пользователи ниже 0.50 получают стандартный мониторинг без особого внимания

Такой подход к сортировке использует сканирование профилей, чтобы определить, какие новые участники требуют более тщательной проверки, и помогает эффективно расходовать ограниченные ресурсы модерации. Профили с высоким риском получают немедленное внимание, а профили с низким риском — только обычный мониторинг.

Рекомендации

Включите проверку и изображений, и текста

Для максимальной защиты включите проверку как аватара, так и текста био. Эти функции дополняют друг друга: у спам-ботов могут быть NSFW-изображения при безобидном био — или наоборот. Совместное использование позволяет выявлять более широкий круг подозрительных профилей.

Если ограничения квоты не позволяют включить проверку изображений, включите как минимум проверку текста (она бесплатна и не имеет ограничений). Даже один анализ био даёт существенную пользу для выявления спама.

Используйте данные профиля как один из факторов

Проверка профиля должна помогать принимать решения, а не автоматически их определять. Помеченный как NSFW аватар или био с признаками спама повышают уровень подозрений, но не доказывают злой умысел. Прежде чем принимать решение о бане главным образом на основе данных профиля, оцените реальное поведение пользователя.

Система AI Spam Intelligence корректно рассматривает признаки из профиля как один сигнал среди многих. Доверяйте алгоритмическому балансу и не придавайте данным профиля чрезмерный вес при ручной модерации.

Отслеживайте новых участников с высоким уровнем риска

Настройте регулярный просмотр отчётов по новым участникам — раз в неделю или раз в две недели, уделяя особое внимание пользователям с повышенным рейтингом спама (0.50+). Такой проактивный мониторинг помогает заметить потенциальные проблемы до их обострения, не создавая необходимости проверять каждого нового участника.

Учитывайте контекст сообщества

В разных сообществах нормы оформления профиля могут отличаться. В арт-сообществах может быть больше участников с аватарами, которые получают умеренные NSFW-оценки (например, художественная нагота). В международных сообществах может быть больше участников без Telegram-юзернейма из-за языковых предпочтений. Настраивайте ожидания и пороги с учётом особенностей именно вашего сообщества.

Опишите политику в отношении профилей

Если в вашем сообществе есть конкретные требования к профилям (например, «NSFW-аватары запрещены»), зафиксируйте их в правилах группы и приветственных сообщениях. Это делает применение ограничений на основе профиля явным и снижает недопонимание, когда предпринимаются какие-либо действия.

Используйте вместе с CAPTCHA

Проверка профиля отлично работает в связке с CAPTCHA. CAPTCHA останавливает автоматизированных ботов, а проверка профиля помогает выявлять спам-аккаунты, управляемые вручную и способные пройти CAPTCHA. Такое сочетание закрывает оба типа спам-операций: автоматизированные и ручные.

Интеграция с другими функциями

Основа для AI Spam Intelligence

Сканирование профиля предоставляет критически важные исходные данные для оценки риска спама. Когда присоединяются новые пользователи, у AI Spam Intelligence еще нет поведенческих данных (нет сообщений и нарушений), на которые можно опереться при оценке. Сканирование профиля закрывает этот пробел, сразу предоставляя индикаторы риска, которые позволяют выполнять интеллектуальную приоритизацию еще до того, как пользователи что-либо опубликуют.

По мере того как у пользователей накапливается поведенческая история благодаря активности, эти данные начинают все сильнее перевешивать первоначальную оценку профиля в общем рейтинге спама. Система естественным образом переходит от оценки на основе профиля (для новых пользователей) к оценке на основе поведения (для постоянных пользователей).

Усиление модерации контента

Сканирование профиля и модерация контента работают совместно. Пользователи, отмеченные при сканировании профиля, подвергаются более пристальному контролю, когда публикуют контент. Если пользователь с NSFW-изображением профиля публикует пограничный по допустимости визуальный контент, такое сочетание может привести к фиксации нарушения, тогда как у пользователя с чистым профилем, опубликовавшего тот же контент, нарушения могло бы не быть.

Такой контекстный подход к применению правил учитывает, что пользователи с несколькими признаками риска заслуживают более строгой оценки, чем пользователи с единичными пограничными проявлениями поведения.

Дополнение к проверке CAPTCHA

CAPTCHA в первую очередь предотвращает появление автоматизированных бот-аккаунтов. Сканирование профиля в основном выявляет спам-аккаунты, управляемые вручную, или скомпрометированные легитимные аккаунты. Вместе они создают эшелонированную защиту:

  • CAPTCHA блокирует: автоматизированных спам-ботов
  • Сканирование профиля выявляет: ручных операторов спама, скомпрометированные аккаунты, сложные спам-операции

По отдельности ни одна из этих функций не обеспечивает полной защиты, но вместе они охватывают весь спектр спам-тактик.

Источник данных для внешних баз данных

Хотя ваш бот использует данные из внешних поведенческих баз, он также может передавать данные обратно (если это настроено). О нарушениях в вашем сообществе можно сообщать в базы данных, помогая защищать другие сообщества от тех же злоумышленников.

Такая взаимная связь создает совместную антиспам-сеть, в которой все участвующие сообщества получают пользу от общего анализа данных.

Расширенное использование

Интерпретация оценок уверенности для NSFW-профилей

Обнаружение NSFW на аватаре профиля выдаёт оценки уверенности, которые показывают, насколько система уверена в результате:

  • 0.95-1.0: Почти наверняка неприемлемо (явная порнография)
  • 0.85-0.94: С высокой вероятностью неприемлемо (явные признаки NSFW)
  • 0.70-0.84: Вероятно неприемлемо (умеренная уверенность)
  • 0.50-0.69: Пограничный случай (может быть художественным или вызывающим, но не откровенным)
  • 0.00-0.49: Безопасно или низкая уверенность обнаружения

Используйте эти диапазоны, чтобы настраивать реакцию. Оценки выше 0.85 обычно требуют немедленных действий, тогда как результаты в диапазоне 0.50-0.69 стоит вручную проверить, прежде чем принимать решение.

Обнаружение изменений профиля

Отслеживайте отчёты User Intelligence по пользователям, у которых спам-рейтинг внезапно резко вырос без новых нарушений. Такой паттерн часто указывает на изменения профиля — проверьте, не обновили ли они аватар на NSFW-контент или не добавили ли спам-текст в описание профиля.

Резкое ухудшение профиля у пользователей, которым раньше доверяли, часто говорит о взломе аккаунта, а не о том, что исходный пользователь стал действовать злонамеренно.

Распознавание паттернов между группами

Если вы управляете несколькими сообществами, обращайте внимание на пользователей, которые появляются в запросах к внешним базам данных в разных ваших группах. Пользователь, отмеченный в базах данных за нарушения в группах, которыми вы не управляете, может демонстрировать похожие паттерны и в ваших сообществах.

Такая межгрупповая аналитика помогает выявлять сложные спам-операции, которые тщательно контролируют поведение в отдельных группах, но раскрывают закономерности при рассмотрении всего спектра их целей.

Стратегии оптимизации квоты

Если сканирование аватаров профилей грозит израсходовать слишком большую часть квоты, рассмотрите такие варианты:

  • Включайте сканирование только для групп с самым высоким риском спама
  • Отключите автоматические циклы обновления (сканировать только при вступлении, а не каждые 24 часа)
  • Временно включайте сканирование изображений во время волн спама и отключайте в спокойные периоды
  • Используйте сканирование текста в био (бесплатно) как основной источник данных о профиле

Эти стратегии позволяют сохранить возможность сканирования профилей и при этом контролировать расход квоты.

Ручной анализ профиля

Интерфейс User Intelligence позволяет администраторам вручную запускать анализ профиля для конкретных пользователей. Используйте эту возможность, когда нужно:

  • Расследовать подозрительных пользователей, на которых пожаловались участники
  • Проверить, очистили ли ранее отмеченные пользователи свои профили
  • Убедиться, происходили ли изменения профиля у пользователей с внезапными изменениями поведения

Ручной анализ даёт данные по запросу без ожидания автоматических циклов обновления.

Техническая реализация

Сканирование профилей выполняется через микросервис telegram_updater, который поддерживает актуальность информации в профилях пользователей. Сервис обращается к официальному API Telegram, чтобы получить фотографии профиля и текст био, а затем передает эти данные в соответствующие сервисы анализа.

Фотографии профиля отправляются в сервис discuse_images — тот же механизм обнаружения NSFW, который анализирует изображения в сообщениях. Он возвращает оценки уверенности для категорий порнографического, сексуального, провокационного и поддельного контента. Эти оценки сохраняются в базе данных и связываются с записью профиля пользователя.

Текст био анализируется с помощью алгоритмов сопоставления шаблонов, которые выявляют спам-ключевые слова, рекламные формулировки, признаки мошенничества и другие текстовые маркеры, коррелирующие со спам-аккаунтами. По результатам анализа формируется бинарный флаг — указывает ли текст на спам или считается чистым, — который сохраняется в профиле пользователя.

Интеграция с внешними базами данных выполняется через API-запросы к подключенным сетям обмена данными о спаме. В запросах передается Telegram ID пользователя, а в ответ поступают сведения о нарушениях, отметках злоупотреблений или мошеннической активности, связанной с этим ID в сети баз данных. Данные ответов кэшируются, чтобы избежать повторных запросов.

Механизм обновления профилей запускается как запланированная задача (cron job), которая обрабатывает активных пользователей пакетами и получает обновленные данные профилей каждые 24 часа. Цикл обновления отдает приоритет недавно активным пользователям и понижает приоритет неактивных участников, чтобы оптимизировать использование ресурсов.

Все результаты сканирования профилей поступают в базу User Intelligence, где объединяются с поведенческими данными — количеством сообщений, записями о нарушениях и шаблонами участия в группах — для расчета комплексных оценок риска спама, отображаемых в аналитических отчетах.

Конфиденциальность и обработка данных

Сканирование профиля обрабатывает данные, которые публично доступны через API Telegram:

  • Фотографии профиля: загружаются из CDN Telegram (те же изображения, которые видны в приложении)
  • Текст биографии: публичная информация «О себе», которую пользователи выбирают показывать
  • ID пользователей: публичные идентификаторы, используемые в Telegram

Система не получает доступ к какой-либо приватной информации, недоступной через публичные конечные точки API. Все анализируемые данные уже видны любому пользователю Telegram, который просматривает профиль.

При запросах к внешним базам данных передаётся только Telegram ID пользователя (публичный идентификатор), без передачи содержимого сообщений, сведений об участии в группах или другой приватной информации. Ответы базы данных сообщают только о том, был ли этот ID кем-либо отмечен и какие типы нарушений были указаны.

NSFW-анализ фотографий профиля выполняется на сервере с теми же мерами защиты конфиденциальности, что и анализ изображений в сообщениях. Фотографии профиля анализируются в реальном времени и не сохраняются сервисом NSFW-детекции на постоянной основе (сохраняются только результаты проверки).

Результаты сканирования профиля видны администраторам групп, в которых состоит пользователь. Эти данные не находятся в публичном доступе и не передаются неавторизованным сторонам. Внешний доступ по API предоставляет только рейтинг спама, а не подробный анализ профиля.

Пользователи не могут отказаться от анализа своих публичных профилей (иначе спамеры сразу воспользовались бы этим, чтобы обходить обнаружение). Система анализирует только ту информацию, которую пользователи сами решили сделать публично видимой в настройках своего профиля Telegram.

Устранение неполадок

«Сканирование профилей, похоже, не выявляет очевидные спам-профили»

Возможные причины:

  • Функция не включена в настройках (проверьте переключатели для изображений и текста)
  • Исчерпана квота на сканирование изображений
  • В профиле пользователя нет содержимого, которое можно просканировать (пустое био, нет фотографии профиля)

Решение: Убедитесь, что в разделе Settings > AI Moderation включены и «Scan User Profile Pictures», и «Scan User Profile Text». Проверьте использование квоты на странице Subscription Status: если квота на сканирование изображений исчерпана, анализ фотографии профиля выполняться не будет. Обратите внимание: пользователи без фотографии профиля или текста в био не будут помечены одним только сканированием профиля.

«Ложные срабатывания на художественные фотографии профиля»

Возможные причины:

  • NSFW-детекция может давать среднюю уверенность для художественного изображения наготы
  • Система не может с идеальной точностью отличать искусство от порнографии

Решение: Проверьте показатель уверенности в отчёте User Intelligence. Значения в диапазоне 0.50–0.69 часто указывают на художественный контент, а не на порнографию. Используйте такие умеренные оценки как сигналы для ручной проверки, а не как триггеры для автоматической блокировки. Система AI Spam Intelligence намеренно учитывает оценки со средней уверенностью с меньшим весом, чем оценки с высокой уверенностью, именно для таких случаев.

«Квота на сканирование профилей заканчивается слишком быстро»

Возможные причины:

  • Большая группа с множеством участников, которым требуется первичное сканирование
  • Высокая текучесть участников (много вступлений и выходов, вызывающих повторные сканирования)
  • 24-часовые циклы обновления расходуют квоту при большой базе пользователей

Решение: Сканирование фотографий профиля может активно расходовать квоту в крупных сообществах. Рассмотрите переход на более высокий уровень подписки для увеличения квоты, отключение автоматических циклов обновления (сканировать только при вступлении) или выборочное включение сканирования изображений только для групп с высоким риском. Сканирование текста био не расходует квоту и при необходимости может заменить сканирование изображений.

«Интеграция с внешней базой данных не показывает результатов»

Возможные причины:

  • У пользователя нет записей во внешних базах данных (чистый профиль, легитимный пользователь)
  • API базы данных временно недоступен
  • Пользователь совсем новый, и его ещё нигде не успели отметить

Решение: У большинства пользователей не будет записей во внешних базах данных — в них попадают только известные спамеры. Отсутствие записей в базах данных — нормально и ожидаемо для легитимных пользователей. Если вы ожидаете, что известный спамер должен отображаться, но не видите результатов из баз данных, возможно, в конкретных запрашиваемых базах пока нет записей по этому пользователю.

«В отчёте User Intelligence профиль помечен как NSFW, но выглядит чистым»

Возможные причины:

  • Пользователь изменил фотографию профиля после сканирования
  • Сканирование дало ложное срабатывание, которое ещё не было обновлено
  • Разное понимание того, что считается NSFW

Решение: Фотографии профиля могут меняться после сканирования. Если 24 часа ещё не прошли, вы видите устаревшие результаты — дождитесь цикла обновления или вручную запустите повторное сканирование. Если это было ложное срабатывание, оно будет исправлено при следующем обновлении. Помните, что NSFW-детекция включает не только явную порнографию, но и «пикантный» или «провокационный» контент — ваше понимание «чистого» профиля может отличаться от порога модели детекции.

«Результаты сканирования профиля не отображаются в отчётах User Intelligence»

Возможные причины:

  • Функции включены совсем недавно (сканирование ещё выполняется)
  • Пользователь вступил до включения функции (ещё не был просканирован)
  • Кэш отчёта ещё не обновился

Решение: Сканирование профилей выполняется асинхронно — между вступлением пользователя и появлением результатов в отчёте может быть задержка. Для существующих участников при первом включении функции сканирование выполняется постепенно в течение следующего цикла обновления (до 24 часов). Обновите страницу User Intelligence, чтобы убедиться, что вы просматриваете актуальные данные.

Заключение

Сканирование профилей и интеграция с базами поведенческих данных обеспечивают критически важную первую линию защиты от сложных спам-операций, которые избегают срабатывания фильтров на основе содержимого. Анализируя то, что пользователи раскрывают о себе в профилях, и сопоставляя эти данные с информацией из внешних баз, система заранее, а не постфактум, выявляет аккаунты с высоким уровнем риска.

Интеграция этой функции с AI Spam Intelligence создает комплексную оценку риска, учитывающую как то, кем пользователи выглядят (на основе профилей), так и то, что они фактически делают (на основе поведения). Это позволяет выявлять спам-аккаунты на разных этапах: одни удаляются сразу из-за крайне подозрительных профилей, другие попадают под усиленное наблюдение и удаляются после первого нарушения, тогда как легитимные пользователи с чистыми профилями и корректным поведением проходят без вмешательства.

Сканирование профилей особенно полезно против скоординированных спам-атак, скомпрометированных аккаунтов и спам-операций, которые контролируют поведение внутри группы, чтобы обходить детекцию на основе содержимого. Поскольку выявление NSFW-материалов в профиле, анализ био и запросы к внешним базам данных выполняются до первого сообщения пользователя, они обнаруживают риски, которые одно лишь сканирование сообщений заметило бы только постфактум. Включите сканирование изображений и текста в Settings > AI Moderation, чтобы использовать эту функцию.

Автор: Telegram Bot App team · Обновлено June 2026

Похожие статьи

Блокировка порноботов Telegram: руководство по фильтру NSFW-контента

Остановите порноботов и взрослый контент в вашей группе Telegram. Полное руководство по NSFW-фильтрации, обнаружению взрослого контента и защите сообщества от неприемлемых изображений.

Анализ тональности и обнаружение токсичности

Автоматическое обнаружение токсичного поведения, ненормативной лексики, оскорблений и угроз

AI-анализ спама и оценка риска пользователей

Автоматизированный анализ поведения и интеллектуальное предотвращение спама с оценкой риска