Analyse des profils et intégration de bases de données comportementales
Introduction
Alors que la plupart des systèmes de modération se concentrent exclusivement sur le contenu des messages, les opérations de spam sophistiquées se révèlent souvent à travers les profils utilisateurs, bien avant la publication du premier message. Le système d’analyse des profils et d’intégration aux bases de données comportementales offre une protection proactive en analysant les profils utilisateurs, en les recoupant avec des bases de données externes de spam et en identifiant les comptes à haut risque avant qu’ils ne puissent perturber votre communauté.
Cette fonctionnalité avancée fonctionne automatiquement en arrière-plan : elle analyse la photo de profil de chaque nouveau membre à la recherche de contenu inapproprié, examine le texte de la bio pour y détecter des indicateurs de spam et interroge des bases de données comportementales externes afin de vérifier si l’utilisateur a déjà été signalé pour spam ou abus dans d’autres communautés. Cette approche multicouche permet de repérer des comptes de spam susceptibles de passer la vérification CAPTCHA ou d’éviter de déclencher les systèmes de détection fondés sur le contenu.
Contrairement à la modération réactive, qui attend que des infractions se produisent, l’analyse des profils permet d’identifier de manière préventive les problèmes potentiels. Un utilisateur qui vient de rejoindre le groupe avec une photo de profil NSFW, une bio suspecte et des signalements dans des bases de données de spam reçoit immédiatement un score de risque élevé, ce qui permet aux administrateurs de prendre une décision éclairée avant même que le compte ne publie quoi que ce soit dans votre groupe. Cette approche proactive réduit considérablement l’exposition au spam et protège votre communauté contre les attaques coordonnées utilisant de nouveaux comptes.
Fonctionnement
Analyse de la photo de profil
Chaque fois qu’un utilisateur rejoint l’un de vos groupes (ou lorsque le bot rencontre pour la première fois un membre déjà présent), le système récupère sa photo de profil Telegram via l’API officielle et l’analyse à l’aide du même moteur de détection NSFW que celui utilisé pour analyser les images envoyées dans les messages. L’analyse examine la photo de profil afin d’y détecter du contenu pornographique, des images à connotation sexuelle, du contenu provocant, ainsi que des images falsifiées ou manipulées.
La détection produit un score de confiance (de 0.0 à 1.0) indiquant la probabilité que la photo de profil contienne du contenu inapproprié. Les détections avec un niveau de confiance élevé (généralement supérieur à 0.7) entraînent le signalement de l’utilisateur avec un indicateur de photo de profil NSFW, qui contribue à l’évaluation globale de son risque de spam. Ce signalement apparaît dans les rapports User Intelligence, ce qui permet aux administrateurs de voir quels membres ont des photos de profil problématiques, même s’ils n’ont pas enfreint les règles relatives au contenu des messages.
L’analyse des photos de profil fonctionne indépendamment de l’analyse du contenu des messages : vous pouvez activer l’analyse des profils même si l’analyse des images de messages est désactivée, ou inversement. Cette fonctionnalité utilise le même quota premium que l’analyse des images de messages ; l’analyse des photos de profil est donc décomptée de votre allocation mensuelle d’analyses d’images. Toutefois, comme les analyses de profil n’ont lieu qu’une seule fois par utilisateur (avec des actualisations périodiques), la consommation de quota reste minimale par rapport à l’analyse de chaque image publiée dans le chat.
Le système gère intelligemment les utilisateurs sans photo de profil (un cas courant aussi bien chez les utilisateurs légitimes que chez les bots de spam). L’absence de photo de profil contribue légèrement aux calculs de risque de spam, car de nombreux comptes de spam automatisés ne personnalisent pas leur profil. Toutefois, ce facteur a à lui seul un poids faible : l’algorithme reconnaît que de nombreux utilisateurs authentiques ne définissent pas non plus de photo de profil, si bien que cette absence n’est réellement significative que lorsqu’elle est associée à d’autres signaux suspects.
Analyse du contenu de la bio
En plus des photos de profil, le système récupère et analyse le texte de la bio de l’utilisateur (la section « À propos » des profils Telegram). L’analyse de la bio recherche les indicateurs de spam courants, notamment le langage promotionnel, les liens excessifs, les schémas de sollicitation financière, les mots-clés associés aux arnaques et d’autres marqueurs textuels liés aux comptes de spam.
L’analyse de la bio s’appuie sur la correspondance de motifs et la détection de mots-clés pour identifier les contenus suspects. Les utilisateurs légitimes ont généralement une bio courte et personnelle, ou la laissent vide. Les comptes de spam remplissent souvent leur bio de contenu promotionnel, d’argumentaires d’arnaques liées aux cryptomonnaies, de liens d’affiliation ou de textes de spam copiés-collés. La reconnaissance de motifs du système identifie ces bios typiques de spam et signale l’utilisateur en conséquence.
Comme les photos de profil, l’analyse de la bio contribue au score global de risque de spam visible dans les rapports User Intelligence. Un utilisateur dont la bio présente des signes de spam reçoit une évaluation de risque plus élevée avant même de publier des messages, ce qui permet de prendre des décisions de modération proactives.
Intégration avec des bases de données comportementales externes
L’analyse des profils s’intègre également à des bases de données externes de spam qui regroupent des signalements provenant de nombreux groupes Telegram. Lorsqu’un utilisateur rejoint votre groupe, le système interroge ces bases de données pour vérifier si l’ID utilisateur apparaît dans des enregistrements de spammeurs, d’arnaqueurs ou de comptes abusifs connus.
Ces bases de données externes collectent les signalements de communautés participantes concernant des utilisateurs ayant enfreint les règles, publié du spam, participé à des arnaques ou présenté d’autres comportements problématiques. Les données agrégées créent un réseau de défense collaboratif dans lequel les communautés partagent des renseignements sur les acteurs malveillants, empêchant les mêmes comptes de spam de cibler à répétition différents groupes.
La requête à la base de données renvoie des informations indiquant si l’utilisateur a été signalé, combien de signalements existent et quels types d’infractions ont été rapportés (spam, arnaque, abus, etc.). Ces renseignements externes sont intégrés au calcul du risque de spam, augmentant nettement le score de risque des utilisateurs ayant de nombreux antécédents négatifs, tout en ayant un impact minimal sur les utilisateurs au dossier vierge ou absents des bases de données.
Il est important de noter que le système utilise ces données comme un signal parmi d’autres, plutôt que de bannir automatiquement les utilisateurs uniquement sur la base de signalements externes. Des faux positifs peuvent exister dans tout système de signalement ; l’algorithme considère donc les indicateurs issus des bases de données comme informatifs, mais non définitifs. Les utilisateurs figurant dans des bases de données de spam, mais n’ayant commis aucune infraction dans votre groupe spécifique, conservent la possibilité de participer, même s’ils sont surveillés de plus près.
Actualisation automatique du profil
Les profils utilisateur ne sont pas statiques : les spammeurs peuvent modifier leur photo de profil ou le contenu de leur bio après avoir rejoint des groupes afin de paraître plus légitimes. Pour conserver des informations à jour, le système actualise automatiquement les données de profil toutes les 24 heures pour les utilisateurs actifs.
Pendant les cycles d’actualisation, le système réanalyse les photos de profil à la recherche de contenu NSFW, réévalue le texte de la bio pour détecter des indicateurs de spam et interroge à nouveau les bases de données externes afin d’obtenir des enregistrements mis à jour. Si le profil d’un utilisateur change de manière significative (par exemple s’il ajoute une photo de profil NSFW qui n’était pas présente lors de son arrivée), l’évaluation du risque mise à jour tient compte de cette nouvelle information.
Le mécanisme d’actualisation garantit que les évaluations de risque fondées sur le profil restent exactes même lorsque les utilisateurs modifient leur profil. Il permet également de détecter les situations où des comptes sont compromis : un compte utilisateur auparavant légitime pris en main par des spammeurs présentera des changements de profil soudains, déclenchant des scores de risque plus élevés.
Intégration avec AI Spam Intelligence
Toutes les données issues de l’analyse des profils alimentent directement l’algorithme de calcul du risque du système AI Spam Intelligence. La note de spam (de 0.0 à 1.0), qui détermine si les utilisateurs font l’objet d’une suppression automatique, prend en compte :
- Le statut NSFW de la photo de profil (présence et niveau de confiance)
- Les indicateurs de spam dans le contenu de la bio
- Les signalements dans les bases de données externes et le nombre d’infractions
- L’absence de photo de profil (facteur mineur)
- L’absence de pseudo Telegram (facteur distinct, mais lié)
Ces signaux fondés sur le profil se combinent aux signaux comportementaux (schémas de messages, historique d’infractions, caractéristiques d’appartenance aux groupes) pour produire des scores de risque complets. Les utilisateurs signalés par l’analyse des profils contribuent à des évaluations initiales du risque plus élevées, tandis que les profils propres contribuent à un niveau de risque de référence plus faible.
Cette intégration signifie que l’analyse des profils ne se contente pas de fournir des informations : elle influence activement l’application des règles lorsque AI Spam Intelligence est activé. Les utilisateurs dont le profil est extrêmement suspect (photos NSFW + bio de spam + nombreux antécédents dans les bases de données) peuvent obtenir une note de spam supérieure à 0.75 dès leur arrivée, déclenchant une suppression automatique avant même qu’ils ne publient quoi que ce soit.
Configuration
Activer l’analyse des profils
L’analyse des profils fonctionne au moyen de deux paramètres distincts dans la configuration de votre groupe :
- Accédez à la page de gestion de votre groupe dans le panneau
- Sélectionnez l’onglet « Settings »
- Cliquez sur le sous-onglet « AI Moderation »
- Repérez la section « Media Scanning »
- Activez l’option « Scan User Profile Pictures » pour analyser les photos de profil
- Activez l’option « Scan User Profile Text » pour analyser le contenu de la bio
Ces deux paramètres sont des fonctionnalités de l’offre gratuite disponibles pour tous les groupes, quel que soit le niveau d’abonnement. Toutefois, l’analyse des photos de profil consomme le quota d’analyse d’images de votre abonnement lorsqu’elle analyse effectivement des images (l’analyse du texte de la bio ne consomme aucun quota).
Les paramètres fonctionnent indépendamment : vous pouvez activer l’analyse des photos sans activer l’analyse du texte, ou inversement, selon vos priorités et le quota disponible.
Comprendre l’utilisation du quota
L’analyse des photos de profil est décomptée de votre quota mensuel d’analyse d’images :
- Basic (Free) : 500 analyses/mois
- Gold : 2 000 analyses/mois
- Platinum : 5 000 analyses/mois
- Ultimate : 10 000 analyses/mois
Chaque analyse de photo de profil consomme une analyse de votre quota. Le système analyse les photos de profil :
- Lorsqu’un nouvel utilisateur rejoint votre groupe (analyse initiale)
- Lors des cycles de rafraîchissement de 24 heures pour les utilisateurs actifs
- Sur demande manuelle via les rapports User Intelligence
Pour la plupart des communautés, la consommation de quota liée à l’analyse des profils reste faible. Un groupe de 1 000 membres peut utiliser 1 000 analyses pour l’analyse initiale, puis environ 1 000 analyses par mois pour les cycles de rafraîchissement continus (en supposant que tous les membres restent actifs). Il reste donc un quota important pour l’analyse des images dans les messages, sauf dans les plus grandes communautés.
Si le quota est un sujet de préoccupation, vous pouvez activer l’analyse du texte de profil (gratuite, sans quota) tout en laissant l’analyse des photos désactivée, ou n’activer l’analyse des photos que pendant les périodes à haut risque (lorsque vous vous attendez à des vagues de spam).
Consulter les résultats de l’analyse des profils
Pour consulter les résultats de l’analyse des profils d’utilisateurs individuels :
- Accédez à « User Intelligence » depuis le panneau
- Recherchez l’utilisateur par nom, identifiant ou ID
- Consultez son rapport d’intelligence
- Le rapport affiche :
- L’indicateur « NSFW Profile Picture » si le profil est signalé
- Un score de spam intégrant tous les signaux issus du profil
- Le statut dans les bases de données externes (si disponible)
- L’historique complet des infractions
Les données d’analyse des profils apparaissent directement dans l’interface existante des rapports d’intelligence, sans nécessiter de vues séparées ni de navigation supplémentaire.
Intégration avec les bases de données externes
L’intégration avec les bases de données comportementales externes fonctionne automatiquement et ne nécessite aucune configuration. Le système interroge les bases de données lors de l’analyse des profils et intègre les résultats de manière transparente dans les calculs de risque de spam.
Les administrateurs ne peuvent pas désactiver les requêtes vers les bases de données externes (car cela permettrait aux spammeurs d’échapper à la détection), mais ces données ne constituent qu’un facteur parmi d’autres dans l’évaluation du risque. Les utilisateurs peuvent continuer à participer à votre groupe même s’ils ont des enregistrements négatifs dans ces bases, à condition que leur comportement réel dans votre communauté spécifique reste irréprochable.
Scénarios concrets
Scénario 1 : Prévention d’une attaque de spam coordonnée
Une communauté de discussion sur les cryptomonnaies subit une vague de comptes de bots frauduleux qui la rejoignent simultanément. Tous les comptes présentent des caractéristiques similaires : aucune photo de profil, des bios contenant du texte de spam sur le thème des cryptomonnaies, et des dates de création très récentes.
L’analyse des profils signale immédiatement ces comptes sur la base de l’analyse du contenu des bios. Le texte des bios, typique du spam, fait grimper leur score de risque dans une fourchette de 0,60 à 0,70, avant même qu’ils ne publient des messages. Combiné à l’absence de photos de profil et d’identifiants, cela fait dépasser à plusieurs comptes le seuil de 0,75 de probabilité de spam.
Avec AI Spam Intelligence activé, ces comptes à haut risque sont automatiquement supprimés quelques secondes après leur arrivée, avant qu’ils ne puissent publier des liens frauduleux. Les quelques comptes qui restent sous le seuil de 0,75 continuent d’être surveillés, et leur premier message de spam déclenche à la fois une détection basée sur le contenu et une hausse de leur score de risque au-dessus du seuil, entraînant leur suppression immédiate.
Sans analyse des profils, ces comptes auraient réussi à rejoindre la communauté et à publier leurs premiers messages de spam avant d’être détectés. L’analyse des profils a intercepté l’attaque dès le point d’entrée, au lieu de réagir après coup.
Scénario 2 : Détection d’un compte compromis
Le compte d’un membre de longue date de la communauté est compromis par des pirates, qui remplacent la photo de profil par du contenu NSFW et mettent à jour la bio avec des liens de spam. L’utilisateur légitime d’origine ignore que son compte a été piraté.
Lors du cycle suivant d’actualisation des profils, effectué toutes les 24 heures, le système détecte la photo de profil NSFW et la bio de spam, alors que le profil était auparavant sain. Le rapport d’intelligence utilisateur montre une hausse soudaine de la probabilité de spam, qui passe de 0,15 (utilisateur de confiance) à 0,68 (risque élevé), en raison des changements de profil.
Les administrateurs qui examinent le rapport d’intelligence remarquent ce changement de profil suspect pour un membre auparavant considéré comme fiable. Ils contactent l’utilisateur en dehors de Telegram, découvrent le piratage et l’aident à sécuriser son compte avant qu’il ne puisse être utilisé pour spammer la communauté.
Sans actualisation automatisée des profils, le compte compromis aurait continué à paraître légitime (sur la base de son comportement historique) jusqu’à ce qu’il commence à publier du spam, ce qui aurait pu entraîner de fortes perturbations.
Scénario 3 : Gestion des faux positifs
Un nouvel utilisateur légitime rejoint une communauté artistique avec une photo de profil montrant une œuvre classique représentant des figures nues — une œuvre historiquement importante, mais contenant techniquement de la nudité, ce qui déclenche la détection NSFW avec un niveau de confiance modéré (0,62).
L’analyse du profil signale la photo de profil NSFW, faisant monter la probabilité initiale de spam de l’utilisateur à 0,45 (toujours en dessous du seuil d’exclusion automatique de 0,75). Les administrateurs qui examinent les rapports d’intelligence des nouveaux membres remarquent ce score élevé et vérifient manuellement le profil de l’utilisateur.
Ils reconnaissent que la photo de profil relève de l’art classique plutôt que de la pornographie, et constatent que la bio de l’utilisateur le présente comme étudiant en histoire de l’art. Le niveau de confiance modéré (0,62 plutôt que 0,95+) appuie l’interprétation selon laquelle il s’agit d’un contenu limite, et non d’une pornographie évidente.
Les administrateurs décident de surveiller l’utilisateur plutôt que de le bannir préventivement. L’utilisateur publie du contenu approprié lié à l’art, accumule un historique d’interactions positives, et sa probabilité de spam diminue progressivement jusqu’à 0,25 à mesure que les signaux comportementaux l’emportent sur le signalement initial du profil.
Ce scénario montre comment l’analyse des profils fournit des informations sans imposer d’action automatique, permettant un jugement humain nuancé dans les cas limites.
Scénario 4 : Corrélation avec des bases de données externes
Un utilisateur rejoint plusieurs communautés de jeux vidéo liées entre elles et gérées par la même équipe de modération. Dans la première communauté, l’utilisateur publie du spam et est banni. Cette infraction est signalée à des bases de données comportementales externes.
Lorsque le même utilisateur rejoint une deuxième communauté liée (avec le même compte), l’analyse du profil interroge les bases de données externes et découvre le signalement récent de spam provenant de la première communauté. Ces renseignements intergroupes font immédiatement monter la probabilité de spam de l’utilisateur dans la deuxième communauté à 0,55, malgré l’absence d’infractions locales à ce stade.
Ce risque accru entraîne une surveillance plus étroite. Lorsque l’utilisateur publie son premier message, celui-ci contient un lien de spam, immédiatement détecté par l’analyse du contenu. La combinaison du signalement provenant de la base de données externe et de l’infraction réelle fait passer la probabilité de spam au-dessus de 0,75, déclenchant la suppression automatique.
Sans intégration de bases de données externes, chaque communauté aurait dû identifier le spammeur de manière indépendante, par sa propre expérience directe. L’intégration des bases de données a permis une protection proactive fondée sur les renseignements issus de communautés liées.
Scénario 5 : Triage basé sur les profils
Une grande communauté publique de plus de 10 000 membres reçoit chaque jour des dizaines de demandes d’adhésion. Examiner manuellement chaque nouveau membre serait irréaliste, mais les administrateurs souhaitent surveiller les nouveaux arrivants à haut risque.
Ils mettent en place un flux de travail d’analyse des profils :
- Tous les nouveaux membres sont automatiquement analysés (photo de profil + bio + base de données externe)
- Chaque semaine, les administrateurs examinent les rapports d’intelligence utilisateur filtrés par « membres ayant rejoint au cours des 7 derniers jours »
- Ils concentrent leur attention sur les utilisateurs dont la probabilité de spam est supérieure à 0,50
- Les utilisateurs en dessous de 0,50 font l’objet d’une surveillance standard, sans attention particulière
Cette approche de triage utilise l’analyse des profils pour déterminer quels nouveaux membres méritent un examen plus attentif, permettant une utilisation efficace des ressources de modération limitées. Les profils à haut risque reçoivent une attention immédiate, tandis que les profils à faible risque ne font l’objet que d’une surveillance de routine.
Bonnes pratiques
Activer l’analyse des images et du texte
Pour une protection maximale, activez à la fois l’analyse de la photo de profil et celle du texte de la bio. Ces fonctionnalités fournissent des renseignements complémentaires : les bots de spam peuvent avoir des images NSFW avec des bios propres, ou l’inverse. Les utiliser ensemble permet de détecter un éventail plus large de profils suspects.
Si des contraintes de quota vous empêchent d’activer l’analyse des images, activez au minimum l’analyse du texte (gratuite et illimitée). L’analyse de la bio à elle seule apporte déjà une valeur importante pour la détection du spam.
Utiliser les données de profil comme un facteur parmi d’autres
L’analyse de profil doit éclairer les décisions plutôt que les dicter automatiquement. Une photo de profil signalée comme NSFW ou une bio suggérant du spam augmente le niveau de suspicion, mais ne prouve pas une intention malveillante. Examinez le comportement réel de l’utilisateur avant de prendre des décisions de bannissement principalement fondées sur les données de profil.
Le système AI Spam Intelligence traite correctement les indicateurs de profil comme un signal parmi d’autres. Faites confiance à l’équilibre algorithmique plutôt que de donner un poids excessif aux données de profil dans les décisions manuelles.
Surveiller les nouveaux membres à haut risque
Mettez en place une routine d’examen hebdomadaire ou bimensuel des rapports d’intelligence sur les nouveaux membres, en vous concentrant sur les utilisateurs dont le score de spam est élevé (0.50+). Cette surveillance proactive permet de repérer les problèmes potentiels avant qu’ils ne s’aggravent, tout en évitant d’avoir à examiner chaque nouveau membre.
Tenir compte du contexte de la communauté
Les normes de profil varient d’une communauté à l’autre. Les communautés artistiques peuvent compter davantage de membres avec des photos de profil déclenchant des scores NSFW modérés (nudité artistique). Les communautés internationales peuvent avoir davantage de membres sans identifiant Telegram en raison de préférences linguistiques. Ajustez vos attentes et vos seuils en fonction des caractéristiques propres à votre communauté.
Documenter la politique relative aux profils
Si votre communauté impose des exigences particulières concernant les profils (par exemple, « aucune photo de profil NSFW autorisée »), indiquez-les dans les règles du groupe et les messages de bienvenue. Cela rend explicite l’application des restrictions fondées sur le profil et réduit la confusion lorsque des mesures sont prises.
Associer avec CAPTCHA
L’analyse de profil fonctionne très bien avec la vérification CAPTCHA. CAPTCHA bloque les bots automatisés, tandis que l’analyse de profil détecte les comptes de spam gérés manuellement qui peuvent passer CAPTCHA. Cette combinaison répond à la fois aux opérations de spam automatisées et manuelles.
Intégration avec d’autres fonctionnalités
Base de l’intelligence anti-spam par AI
L’analyse du profil fournit des données initiales essentielles pour évaluer le risque de spam. Lorsque de nouveaux utilisateurs rejoignent le groupe, l’intelligence anti-spam par AI ne dispose pas encore de données comportementales (aucun message, aucune infraction) pour les évaluer. L’analyse du profil comble cette lacune en fournissant des indicateurs de risque immédiats, qui permettent un tri intelligent avant même que les utilisateurs ne publient quoi que ce soit.
À mesure que les utilisateurs accumulent un historique comportemental via leur activité, ces données comportementales prennent progressivement le pas sur l’évaluation initiale du profil dans la note globale de risque de spam. Le système passe naturellement d’une évaluation fondée sur le profil (pour les nouveaux utilisateurs) à une évaluation fondée sur le comportement (pour les utilisateurs établis).
Amélioration de la modération du contenu
L’analyse du profil et la modération du contenu fonctionnent de concert. Les utilisateurs signalés par l’analyse du profil font l’objet d’un examen renforcé lorsqu’ils publient du contenu. Si un utilisateur ayant une photo de profil NSFW publie une image au contenu limite, cette combinaison peut déclencher une infraction, alors qu’un utilisateur au profil irréprochable publiant le même contenu ne serait pas sanctionné.
Cette application contextuelle des règles reconnaît que les utilisateurs présentant plusieurs signaux de risque justifient une évaluation plus stricte que ceux dont le comportement limite reste isolé.
Complément à la vérification CAPTCHA
CAPTCHA empêche principalement les comptes de bots automatisés. L’analyse du profil vise surtout à détecter les comptes de spam gérés manuellement ou les comptes légitimes compromis. Ensemble, ces fonctionnalités créent une défense en profondeur :
- CAPTCHA bloque : les bots de spam automatisés
- L’analyse du profil détecte : les opérateurs de spam manuels, les comptes compromis, les opérations de spam sophistiquées
Aucune de ces fonctionnalités ne suffit à elle seule à offrir une protection complète, mais combinées, elles couvrent tout l’éventail des tactiques de spam.
Source de données pour les bases de données externes
Même si votre bot consomme des données provenant de bases comportementales externes, il peut également y contribuer en retour (s’il est configuré pour le faire). Les infractions constatées dans votre communauté peuvent être signalées à ces bases, afin d’aider à protéger d’autres communautés contre les mêmes acteurs malveillants.
Cette relation réciproque crée un réseau anti-spam collaboratif, dans lequel toutes les communautés participantes bénéficient de renseignements partagés.
Utilisation avancée
Interpréter les scores de confiance NSFW des profils
La détection NSFW des photos de profil produit des scores de confiance qui indiquent le degré de certitude de la détection :
- 0.95-1.0: Presque certainement inapproprié (pornographie explicite)
- 0.85-0.94: Très probablement inapproprié (indicateurs NSFW forts)
- 0.70-0.84: Probablement inapproprié (confiance modérée)
- 0.50-0.69: Limite (peut être artistique, suggestif mais pas explicite)
- 0.00-0.49: Propre ou détection à faible confiance
Utilisez ces plages pour calibrer les réponses. Les scores supérieurs à 0.85 justifient généralement une action immédiate, tandis que les scores compris entre 0.50 et 0.69 méritent un examen manuel avant de trancher.
Détection des changements de profil
Surveillez les rapports User Intelligence pour repérer les utilisateurs dont les évaluations de spam augmentent soudainement de façon spectaculaire sans nouvelles violations. Ce schéma indique souvent des changements de profil : vérifiez s’ils ont mis à jour leur photo de profil avec du contenu NSFW ou ajouté du texte de spam à leur bio.
Une dégradation soudaine du profil chez des utilisateurs auparavant fiables signale souvent une compromission du compte plutôt qu’un comportement malveillant de la part de l’utilisateur d’origine.
Reconnaissance de schémas entre groupes
Si vous gérez plusieurs communautés, surveillez les utilisateurs qui apparaissent dans les requêtes de bases de données externes à travers vos groupes. Un utilisateur signalé dans des bases de données pour des violations dans des groupes que vous ne gérez pas pourrait présenter des schémas similaires dans vos communautés.
Ces renseignements intergroupes aident à identifier des opérations de spam sophistiquées qui contrôlent soigneusement le comportement dans chaque groupe individuel, mais révèlent des schémas lorsqu’on les observe sur l’ensemble de leurs cibles.
Stratégies d’optimisation du quota
Si l’analyse des photos de profil risque de consommer trop de quota, envisagez de :
- Activer l’analyse uniquement pour les groupes présentant le risque de spam le plus élevé
- Désactiver les cycles d’actualisation automatique (analyser uniquement à l’arrivée, pas toutes les 24 heures)
- Activer temporairement l’analyse des photos pendant les vagues de spam, puis la désactiver pendant les périodes calmes
- Utiliser l’analyse textuelle de la bio (gratuite) comme principale source de renseignements sur les profils
Ces stratégies préservent la capacité d’analyse des profils tout en maîtrisant la consommation de quota.
Analyse manuelle des profils
L’interface User Intelligence permet aux administrateurs de déclencher manuellement l’analyse du profil de certains utilisateurs. Utilisez cette fonctionnalité lorsque vous devez :
- Enquêter sur des utilisateurs suspects signalés par des membres
- Vérifier si des utilisateurs précédemment signalés ont assaini leur profil
- Confirmer si des changements de profil ont eu lieu chez des utilisateurs dont le comportement a soudainement changé
L’analyse manuelle fournit des renseignements à la demande, sans attendre les cycles d’actualisation automatique.
Implémentation technique
L’analyse des profils fonctionne via le microservice telegram_updater, qui maintient à jour les informations des profils utilisateurs. Le service interroge l’API officielle de Telegram afin de récupérer les photos de profil et le texte de la bio, puis transmet ces données aux services d’analyse appropriés.
Les photos de profil sont envoyées au service discuse_images (le même moteur de détection NSFW qui analyse les images des messages), qui renvoie des scores de confiance pour les catégories de contenu pornographique, de contenu à caractère sexuel, de contenu suggestif et de contenu usurpé. Ces scores sont stockés dans la base de données associée à l’enregistrement du profil de l’utilisateur.
Le texte de la bio est analysé à l’aide d’algorithmes de correspondance de motifs qui identifient les mots-clés de spam, les formulations promotionnelles, les indices d’arnaque et d’autres marqueurs textuels corrélés aux comptes de spam. L’analyse produit un indicateur binaire (révélateur de spam ou sain) stocké dans le profil utilisateur.
L’intégration avec des bases de données externes s’effectue via des requêtes API adressées aux réseaux participants de renseignement sur le spam. Les requêtes envoient l’ID Telegram de l’utilisateur et reçoivent des signalements d’infractions, des indicateurs d’abus ou des activités frauduleuses associés à cet ID au sein du réseau de bases de données. Les données de réponse sont mises en cache afin d’éviter les requêtes redondantes.
Le mécanisme d’actualisation des profils s’exécute comme une tâche planifiée (cron job) qui traite les utilisateurs actifs par lots, en récupérant les données de profil mises à jour toutes les 24 heures. Le cycle d’actualisation donne la priorité aux utilisateurs récemment actifs tout en reléguant les membres inactifs au second plan afin d’optimiser l’utilisation des ressources.
Tous les résultats de l’analyse des profils alimentent la base de données User Intelligence, où ils sont combinés aux données comportementales (nombre de messages, historiques d’infractions, schémas d’appartenance aux groupes) afin de calculer des scores complets de risque de spam visibles dans les rapports de renseignement.
Confidentialité et traitement des données
L’analyse des profils traite des données accessibles publiquement via l’API de Telegram :
- Photos de profil : récupérées depuis le CDN de Telegram (les mêmes images que celles visibles dans l’application)
- Texte de bio : informations publiques « À propos » que les utilisateurs choisissent d’afficher
- Identifiants utilisateur : identifiants publics utilisés dans tout Telegram
Le système n’accède à aucune information privée indisponible via les points de terminaison publics de l’API. Toutes les données analysées sont déjà visibles par n’importe quel utilisateur de Telegram qui consulte le profil.
Les requêtes vers des bases de données externes ne partagent que l’identifiant Telegram de l’utilisateur (un identifiant public), sans transmettre le contenu des messages, les détails d’appartenance à des groupes ni toute autre information privée. Les réponses des bases de données indiquent uniquement si l’identifiant a été signalé et quels types d’infractions ont été relevés.
L’analyse de détection NSFW des photos de profil s’effectue côté serveur avec les mêmes protections de confidentialité que l’analyse des images dans les messages. Les photos de profil sont analysées en temps réel et ne sont pas stockées de façon permanente par le service de détection NSFW (seuls les résultats de détection sont conservés).
Les résultats de l’analyse des profils sont visibles par les administrateurs des groupes dont l’utilisateur est membre. Les données ne sont pas accessibles publiquement et ne sont pas partagées avec des parties non autorisées. L’accès à l’API externe ne fournit que des évaluations de spam, et non une analyse détaillée du profil.
Les utilisateurs ne peuvent pas refuser l’analyse de leurs profils publics (les spammeurs exploiteraient immédiatement cette possibilité pour échapper à la détection). Le système analyse uniquement les informations que les utilisateurs ont choisi de rendre publiquement visibles via les paramètres de leur profil Telegram.
Dépannage
« L’analyse des profils ne semble pas détecter des profils de spam évidents »
Causes possibles :
- La fonctionnalité n’est pas activée dans les paramètres (vérifiez les options d’analyse des photos et du texte)
- Le quota d’analyse des photos est épuisé
- Le profil de l’utilisateur ne contient aucun contenu analysable (bio vide, aucune photo de profil)
Solution : Vérifiez que « Scan User Profile Pictures » et « Scan User Profile Text » sont bien activés dans Settings > AI Moderation. Consultez votre utilisation du quota sur la page Subscription Status : si le quota d’analyse d’images est épuisé, l’analyse des photos de profil n’aura pas lieu. Notez que les utilisateurs sans photo de profil ni texte de bio ne seront pas signalés par la seule analyse de profil.
« Faux positifs sur des photos de profil artistiques »
Causes possibles :
- La détection NSFW a une confiance modérée sur la nudité artistique
- Le système ne peut pas distinguer l’art de la pornographie avec une précision parfaite
Solution : Consultez le score de confiance dans le rapport User Intelligence. Les scores compris entre 0,50 et 0,69 correspondent souvent à du contenu artistique plutôt qu’à de la pornographie. Utilisez ces scores modérés comme des signaux invitant à une vérification manuelle, plutôt que comme des déclencheurs de bannissement automatique. Le système AI Spam Intelligence pondère les scores de confiance modérée plus faiblement que les scores de confiance élevée précisément pour gérer ce scénario.
« Le quota d’analyse des profils s’épuise trop vite »
Causes possibles :
- Grand groupe avec de nombreux membres nécessitant des analyses initiales
- Fort renouvellement des membres (nombreuses arrivées et départs déclenchant des analyses répétées)
- Cycles d’actualisation de 24 heures consommant du quota pour une grande base d’utilisateurs
Solution : L’analyse des photos de profil peut consommer beaucoup de quota pour les grandes communautés. Envisagez de passer à une formule d’abonnement supérieure pour obtenir davantage de quota, de désactiver les cycles d’actualisation automatique (analyse uniquement à l’arrivée), ou d’activer sélectivement l’analyse des photos uniquement pour les groupes à haut risque. L’analyse du texte de bio ne consomme pas de quota et peut remplacer l’analyse des photos si nécessaire.
« L’intégration de bases de données externes n’affiche aucun résultat »
Causes possibles :
- L’utilisateur n’a aucun enregistrement dans les bases de données externes (profil sain, utilisateur légitime)
- L’API de la base de données est temporairement indisponible
- L’utilisateur est très récent et n’a pas encore eu le temps d’être signalé quelque part
Solution : La plupart des utilisateurs n’auront aucun enregistrement dans les bases de données externes : seuls les spammeurs connus apparaissent dans ces bases. L’absence d’enregistrements est normale et attendue pour les utilisateurs légitimes. Si vous vous attendez à voir apparaître un spammeur connu mais que les résultats de base de données ne s’affichent pas, il se peut que les bases interrogées n’aient pas encore d’enregistrements pour cet utilisateur précis.
« Le rapport User Intelligence indique un profil NSFW, mais le profil semble sain »
Causes possibles :
- L’utilisateur a changé de photo de profil après l’analyse
- L’analyse était un faux positif qui n’a pas encore été actualisé
- Interprétation différente de ce qui constitue du NSFW
Solution : Les photos de profil peuvent changer après l’analyse. Si 24 heures ne se sont pas écoulées, les résultats affichés sont obsolètes : attendez le cycle d’actualisation ou déclenchez manuellement une nouvelle analyse. Si l’analyse était un faux positif, il sera corrigé lors de la prochaine actualisation. Gardez à l’esprit que la détection NSFW inclut aussi les contenus « osés » et « suggestifs », pas seulement la pornographie explicite : votre interprétation de « sain » peut différer du seuil du modèle de détection.
« Les résultats de l’analyse des profils n’apparaissent pas dans les rapports User Intelligence »
Causes possibles :
- Les fonctionnalités ont été activées très récemment (analyses en cours)
- L’utilisateur a rejoint le groupe avant l’activation de la fonctionnalité (il n’a pas encore été analysé)
- Le cache du rapport n’a pas encore été actualisé
Solution : Les analyses de profil s’effectuent de manière asynchrone : il peut y avoir un délai entre l’arrivée d’un utilisateur et l’apparition des résultats d’analyse. Pour les membres existants lorsque vous activez la fonctionnalité pour la première fois, les analyses se font progressivement lors du prochain cycle d’actualisation (jusqu’à 24 heures). Actualisez la page User Intelligence pour vous assurer de consulter les données les plus récentes.
Conclusion
L’analyse des profils et l’intégration d’une base de données comportementale constituent une première ligne de défense essentielle contre les opérations de spam sophistiquées qui évitent de déclencher la détection basée sur le contenu. En analysant ce que les utilisateurs révèlent d’eux-mêmes à travers leurs profils et en recoupant ces informations avec les renseignements issus de bases de données externes, le système identifie les comptes à haut risque de manière proactive plutôt que réactive.
L’intégration de cette fonctionnalité avec AI Spam Intelligence crée une évaluation globale du risque qui tient compte à la fois de ce que les utilisateurs semblent être (d’après leurs profils) et de ce qu’ils font réellement (d’après leur comportement). Cela permet de détecter les comptes de spam à plusieurs étapes : certains sont supprimés immédiatement en raison de profils extrêmement suspects, d’autres sont surveillés de près puis supprimés après une première infraction, tandis que les utilisateurs légitimes, avec des profils fiables et un comportement approprié, passent sans être importunés.
L’analyse des profils est particulièrement utile contre les attaques de spam coordonnées, les comptes compromis et les opérations de spam qui maîtrisent leur comportement au sein du groupe pour contourner la détection basée sur le contenu. Comme la détection des profils NSFW, l’analyse de la bio et les recherches dans les bases de données externes s’exécutent avant le premier message d’un utilisateur, elles font remonter des risques que la seule analyse des messages ne détecterait qu’après coup. Activez à la fois l’analyse des images et du texte dans Settings > AI Moderation pour l’utiliser.