Stopmail.com - solutions antispams
Il existe un grand nombre
de techniques antispams, Voici une liste, la plus exhaustive possible,
des techniques utilisées pour lutter contre le spam :
- L'Analyse lexicale (analyse de mots clefs et expressions) :
L'analyse lexicale constitue un ensemble de règles représentées sous forme
d'expressions régulières ou mots clefs. Elle permet de rechercher les mails
dont les entêtes et/ou les corps des messages correspondent à des
caractéristiques très particulières connues pour avoir une forte
probabilité d'être un spam. Ces règles doivent être customisées afin
d'identifier aussi bien les spams français qu'américains ou autres.
- Les listes noires : Les RBL (Realtime Blackhole List) ou DNSBL (Back List DNS) sont
des listes de serveurs ou de réseaux connus pour aider, accueillir,
produire ou retransmettre des spams ou fournir un service pouvant être
utilisé comme support pour l'expédition de spams : OpenSMTP Relay, Open
Proxy List (OPL). Certaines de ces listes sont gratuites d'accès, d'autres
nécessitent de souscrire à un abonnement payant.
- Conformité du protocole : Vérifie la conformité du protocole d'échange
des emails avec les RFC 821 (SMTP) et RFC 1651 (ESMTP).
- Bases collaboratives de spams : Ces bases de signatures de spams sont
utilisées de la même manière que les bases de signatures de virus. Elles
sont alimentées par les utilisateurs de solutions antispams. Les bases les
plus couramment utilisées sont : Razor, Distributed Checksum
Clearinghouses (DCC) et Pyzor.
- Enregistrement DNS : Vérifie la corrélation entre l'adresse IP du
serveur source et son nom via une requête DNS inverse (in-addr.arpa).
Généralement, les véritables serveurs de messagerie possèdent une adresse
IP fixe et bijective avec un nom de domaine associé. Malheureusement une
grande quantité de serveurs ne possède pas d'enregistrement PTR dans les
zones d'adresses pour lesquelles leurs fournisseurs sont autoritaires.
- Filtres bayésiens : Méthode probabiliste de filtrage des
courriers électroniques fonctionnant par apprentissage et se basant sur la
distribution statistique de mots clefs dans les mails. Ce type
d'algorithme s'auto-adapte en s'appuyant sur l'analyse des emails connus comme
étant ou n'étant pas des spams.
- Liste blanche : Liste de sites, hôtes, domaines ou adresses
sûres. Par défaut très peu d'hôtes sont considérés comme sûrs car leurs
adresses pourraient être usurpées par les spammeurs.
- Pondération par l’historique des transactions : il s'agit d'un système d'auto apprentissage
des transactions effectuées entre un expéditeur et un destinataire. Cette
technique permet généralement d'accélérer le temps de traitement des
émetteurs déjà testés et considérés comme sûrs.
- Adresses URL : L'analyse des URL présentes dans le corps du message a pour but
d'identifier et de filtrer le mail en fonction de l'action souhaitée (le
click de l'utilisateur sur un lien promotionnel). Cette analyse est basée
sur la détection de sites suspects et des url suspectes (numériques, mal
formatées).
- Teergrubing : Technique permettant, par un maintien de session, de réduire
significativement la vitesse de réponse du serveur SMTP sur certaines
connexions considérées comme suspectes. Le teergrubing permet de bloquer
temporairement les serveurs de spams afin de limiter toute réexpédition
ultérieure.
- Greylisting : Le Greylisting est une technique antispam très récente qui
consiste à rejeter temporairement un message, par émission d'un code de
refus temporaire au serveur émetteur. Le serveur émetteur réexpédie le mail
après quelques minutes, la plupart des serveurs de spams ne prennent pas
cette peine !
- Sender Policy Framework (SPF), Caller-ID
(Microsoft) ou Sender-ID (convergence de SPF et Caller-ID) sont des
techniques ayant pour but d'identifier, pour un domaine donné, les hôtes
autorisés à expédier des emails pour ce domaine. Concrètement cela
s'effectue par la mise en place d'un identifiant particulier dans un champ
TXT du domaine.
Toutes ces techniques comportent leurs avantages et leurs inconvénients,
le greylisting par exemple ne génère aucun faux positif, les filtres bayésiens
offrent des performances très intéressantes, après un temps d'apprentissage
malheureusement important. La solution idéale ne consiste-t-elle pas à tirer
partie de toutes ces techniques en les assemblant ? Il est préférable en terme
de pertinence de résultat, et de réduction des faux positifs d'utiliser une
combinaison de techniques antispam plutôt qu'une seule technique