Vocabulaire des Moteurs de Recherche - S


Index A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Scooter

C'est le petit nom de l'araignée du Moteur de Recherche d'Altavista.

Search Engine

Cf Moteur de Recherche

Searchking

Un petit moteur de recherche qui autorise les visiteurs à voter sur la pertinance des pages renvoyées par leurs requêtes afin de mieux classer les sites en fonction de l'opinion des visiteurs. http://www.searchking.com.

Serveur

Un ordinateur, un programme ou un processus qui répond aux demandes d'informations d'un client. Sur l'Internet, toutes les pages web sont stockées sur des serveurs y compris les Moteurs et Répertoires de recherche qui sont accessibles de l'Internet.

Serveur Virtuel

Un compte ouvert sur le serveur d'une société d'hébergement généralement lié vers son propre domaine. Ca permet de posseder son propre site web avec son propre nom de domaine à un coût moindre. Cette manière permet de posseder son propre site comme une grande société sans avoir à investir dans une machine complète et son entretien.

Sidewinder

C'est le petit nom de l'araignée du Moteur de Recherche d'Infoseek.

Siphonnage

L'utilisation de divers moyens pour voler le trafic d'un autre site. Les techniques utilisées incluent la copie totale d'une page d'un site (la page copiée est modifiée légèrement pour rediriger les visiteurs vers un site différent) et l'utilisation de mots-clés ou de phrases-clé appartenant à d'autres sites Internet.

Site Hit

Cf Hit

Site Miroir

C'est la copie multiple de sites ou de pages Web sur différents serveurs, le plus souvent. Le processus d'enregistrement de ces miroirs dans les Moteurs de Recherche est souvent traité comme du spamdexing, parce que ça augmente artificiellement la pertinence des pages. Les filtres tels que le Sniffer d'Infoseek retirent maintenant les miroirs multiples.

Site Portail

C'est un terme générique pour désigner un site qui sert de point d'entrée sur Internet pour un nombre significatif d'utilisateurs.

Les exemples de sites portail sont les Moteurs de recherche, les annuaires, la page par défaut d'un navigateur, la page de base du site d'un fournisseur d'accès, les sites offrant de l'hébergement gratuitement ou des emails ou même des news et tous les sites populaires (et pleins de publicités) pour devenir des pages par défaut.

Skewing

Le Moteur de Recherche change artificiellement les résultats de sorte que les requêtes des visiteurs renvoient sur des listes artificiellement créées. Infoseek expérimente actuellement cette technique. Infoseek utilise un groupe de critiques pour forcer artificiellement une plus grande visite pour certains sites.

Slurp

C'est le petit nom de l'araignée utilisée par Inktomi.

Snap!

C'est un grand répertoire. L'URL est http://www.snap.com.

Sniffer

C'est le nom du programme de filtre employé par le Moteur de Recherche Infoseek pour empêcher le spamdexing. Il détecte les nombreuses pages miroir, les tricheries entre les fontes et le fond (background), les tags TITLE trop nombreux, l'abus des mot-clés et probablement de nombreux autres types de spamdexing.

Soumission d'URL

Cf Enregistrement

Spamdexing

La création ou modification d'un document avec l'intention de tromper un catalogue ou un système de classement électronique. Toute technique qui a pour objectif d'augmenter la position potentielle d'un site aux dépens de la qualité de la base de données du Moteur de Recherche peut également être considérée comme du spamdexing (également connu sous le nom de spamming ou spoofing).

Le spamming (autrement appelé spam, spamdexing, keyword stuffing et autres) consiste à employer des techniques de fraude dans le code HTML d'une page Web afin qu'elle soit classée dans les 10 meilleurs résultats des Moteurs de recherche en texte integral pour certains mots clés donnés.

En règle générale, les Moteurs savent sans problème détecter du spamming comme la répétition de mots clés des centaines de fois, en caractères petits, en blanc sur fond blanc ou en clair sur fond blanc, la répétition dans les balises IMG (attribut ALT), dans les faux liens ou les fausses images, les balises <TITLE> repétées, etc... bref toute la panoplie de la fraude basée sur la répétition des mots clés consistant donc à faire augmenter l'indice de densité d'un mot donné.

D'autres techniques de spam sont également utilisées, notamment l'emploi de la balise Méta Refresh (TRÈS mal vue par les moteurs) ou la technique consistant à repérer les adresses ou les numéros IP des robots des Moteurs pour leur fournir une page différente de celle fournie logiquement aux internautes (technique dite de la substitution de pages). Je passe sur les détails.

Selon les Moteurs, les mesures suivantes peuvent être prises :

  • Baisse automatique de la note de la page sur un mot clé donné (la page est releguée en fond de classement)
  • Si des pages identiques et spammées sont trouvées (technique des pages satellites), la plupart sont enlevées de l'index et une seule occurrence est gardée mais sera mal classée si elle contient du spam
  • La page est virée de l'index
  • Le site complet est viré de l'index. Cela pose des problèmes, surtout pour les sites d'hébergement gratuit (imaginez que mygale.org, chez.com ou geocities.com soient virés d'AltaVista ou de HotBot !)

Spamming

Cf spamdexing. Le Spamming est plus généralement employé pour se rapporter à l'envoi de courrier électronique en bloc non sollicité. L'utilisation de ce mot au niveau des Moteurs de Recherche est dérivée de ce terme.

Spider, Spyder

Cf Araignée

Spidering

Cf Recensement

Splash Page

Similaire à une page de Garde mais impose l'affichage d'une séquence aux visiteurs avant qu'ils puissent rejoindre la page principale. C'est une sorte d'introduction mais qui se révèle plus ennuyante qu'autre chose.

Spoofing

Cf Spamdexing

SSI

Server Side Includes - Utilisé pour ajouter, par exemple, un contenu dynamique à une page web.

Stealth Script

Un script CGI qui permet de changer le contenu de la page en fonction de qui ou de quoi accede au site.

Voir Agent Name Delivery.

Stemming

Cf Recherche élargie

Stop Word

Un mot qui est ignoré lors d'une requête auprès d'un moteur de recherche. Le mot est trop souvent utilisé que son utilisation n'améliore en rien la pertinance des résultats. Comme exemples, en anglais, les mots liés au net comme computer, web et des mots plus généralistes comme get, I, me, the, you, etc

Submission Service

Différents agents qui soumettent votre site a plusieurs moteurs de recherche et annuaires. Pratique pour s'enregistrer dans plusieurs moteurs de recherches d'importance moindre, mais il ne faut pas faire confiance à ce genre de programmes pour être repertorié dans les principaux moteurs. Plusieurs de ces services sont automatiques et fonctionnels à partir de sites web et d'autres fonctionnent hors-ligne. Certains de ces services sont gratuits ! Attention à ne faites pas trop confiance aux supposés FFA (Free For All - Gratuit Pour Tous) en donnnt votre adresse électronique, vous risquez de vous retrouver victime de spams !

Substitution de Pages

C'est un processus permettant d'envoyer les robots des Moteurs de Recherche vers une page spécifique, pour diriger ensuite vos visiteurs vers ce que vous voulez qu'ils voient. C'est fait en utilisant les server side includes (ou d'autres méthodes de contenu dynamique). Le SSI, par exemple, permet de délivrer un contenu différent au client selon la valeur de son HTTP_USER_AGENT. La plupart des navigateurs normaux ont une chaîne de caractères agent qui commence par "Mozilla" (créé à partir des termes Mosaic et Godzilla). La plupart des robots des Moteurs de Recherche ont un nom d'agent spécifique comme "Gulliver", "Infoseek sidewinder", "Lycos spider" et "Scooter".

En changeant la valeur de votre HTTP_USER_AGENT (par un processus appelé agent detection), différentes pages peuvent être affichées à la même URL, de sorte que vos visiteurs ne voient jamais la page soumise aux Moteurs de Recherche (et vice versa).

C'est théoriquement quelquechose d'assez simple. Certains Moteurs de Recherche prétendent être de "vrais navigateurs mozilla" afin, justement, d'éviter ces substitutions. L'utilisation des substitutions de pages peut se réveler difficile et même ne pas fonctionner.

Comment découvrir une substitution au travail ? C'est assez difficile puisque les possesseurs de substitutions arrivent à contrôler ce que vous voyez ! Vous pouvez être capable de deviner qu'une page utilise cette technique si elle est, par exemple, indexée incorrectement ou le titre ou la description ne correspondent pas à ce que vous voyez; mais la raison peut être beaucoup plus simple, la page a changé depuis que le Moteur l'a indexé. La meilleure solution consiste à écrire un petit programme (avec PERL, par exemple) et de récuperer plusieurs fois la page index en mettant un HTTP_USER_AGENT différent à chaque fois. Si une substitution de pages est utilisé, une ou plusieurs pages devraient se révéler différentes des autres !

Voir aussi le texte caché et le IP delivery.


Index A B C D E F G H I J K L M N O P Q R S T U V W X Y Z