Comment fonctionnent les moteurs de recherche?

Pour beaucoup de gens, Google est l'Internet. C'est sans doute l'invention la plus importante depuis Internet lui-même. Et tandis que les moteurs de recherche ont beaucoup changé depuis, les principes sous-jacents sont toujours les mêmes.

Pour beaucoup de gens, Google est l'Internet.  C'est sans doute l'invention la plus importante depuis Internet lui-même.  Et tandis que les moteurs de recherche ont beaucoup changé depuis, les principes sous-jacents sont toujours les mêmes.
Publicité

Article mis à jour par Joel Lee le 10/10/2017

Débloquez la feuille de triche "Top Google Keyboard Shortcuts" maintenant!

Cela vous permettra de vous inscrire à notre newsletter

Entrez votre Email Unlock Lisez notre politique de confidentialité

Pour beaucoup, Google est l'Internet. C'est le point de départ pour trouver de nouveaux sites, et est sans doute l'invention la plus importante depuis l'Internet lui-même. Sans les moteurs de recherche, le nouveau contenu Web serait inaccessible aux masses.

Mais savez-vous comment fonctionnent les moteurs de recherche? Chaque moteur de recherche a trois fonctions principales: l'exploration (pour découvrir le contenu), l'indexation (pour suivre et stocker le contenu) et la récupération (pour extraire le contenu pertinent lorsque les utilisateurs interrogent le moteur de recherche).

Rampant

Crawling est l'endroit où tout commence: l'acquisition de données sur un site Web.

Cela implique de scanner les sites et de collecter des informations sur chaque page: titres, images, mots-clés, autres pages liées, etc. Les différents crawlers peuvent également rechercher différents détails, tels que les mises en page, les emplacements des annonces, etc.

Mais comment un site web est-il exploré? Un robot automatisé (appelé «araignée») visite les pages les unes après les autres aussi rapidement que possible, en utilisant les liens de la page pour trouver où aller ensuite. Même dans les premiers jours, les araignées de Google pouvaient lire plusieurs centaines de pages par seconde. De nos jours, c'est dans les milliers.

Comment fonctionnent les moteurs de recherche? diagramme de robot Web

Lorsqu'un robot d'exploration Web visite une page, il collecte tous les liens sur la page et les ajoute à sa liste de pages à visiter. Il va à la page suivante dans sa liste, recueille les liens sur cette page, et répète. Les robots d'exploration Web revoient également les pages précédentes de temps en temps pour voir si des changements se sont produits.

Cela signifie que tout site lié à partir d'un site indexé sera éventuellement analysé. Certains sites sont explorés plus fréquemment et certains sont explorés à une plus grande profondeur, mais parfois, un robot d'exploration peut abandonner si la hiérarchie de pages d'un site est trop complexe.

Une façon de comprendre le fonctionnement d'un robot d'exploration Web consiste à en créer un vous-même. Nous avons écrit un tutoriel sur la création d'un moteur de balayage Web de base en PHP, donc vérifiez si vous avez une expérience de programmation.

Comment fonctionnent les moteurs de recherche? recherche google sur tablette

Notez que les pages peuvent être marquées comme "noindex", ce qui revient à demander aux moteurs de recherche d'ignorer son indexation. Les parties non indexées d'Internet sont connues sous le nom de «web profond». Qu'est-ce que le Web profond? Il est plus important que vous pensez quel est le Web profond? Il est plus important que vous pensez Le web profond et le web sombre ont l'air effrayant et néfaste, mais les dangers ont été exagérés. Voici ce qu'ils font et comment vous pouvez même y accéder vous-même! En savoir plus, et certains sites, comme ceux hébergés sur le réseau TOR, ne peuvent pas être indexés par les moteurs de recherche. (Qu'est-ce que le routage TOR et oignon? Qu'est-ce que le routage d'oignon, exactement? [MakeUseOf explique] Qu'est-ce que le routage d'oignon, exactement? [MakeUseOf Explains] Confidentialité Internet L'anonymat était l'une des plus grandes caractéristiques d'Internet dans sa jeunesse. ses pires caractéristiques, en fonction de qui vous demandez) .Laissons de côté les sortes de problèmes qui surgissent ... Lire la suite)

Indexage

L'indexation est lorsque les données d'une analyse sont traitées et placées dans une base de données.

Imaginez que vous fassiez une liste de tous les livres que vous possédez, leurs éditeurs, leurs auteurs, leurs genres, leurs nombres de pages, etc. L'exploration consiste à parcourir chaque livre tandis que l'indexation consiste à les enregistrer dans votre liste.

Maintenant, imaginez que ce n'est pas seulement une salle pleine de livres, mais toutes les bibliothèques du monde. C'est une version à petite échelle de ce que Google fait, qui stocke toutes ces données dans de vastes centres de données avec des milliers de pétaoctets de disques. Tailles de la mémoire expliquées - Gigaoctets, téraoctets et pétaoctets dans les termes de Layman Tailles de mémoire expliquées - Gigaoctets, téraoctets et pétaoctets dans Les termes de Layman Il est facile de voir que 500GB est plus de 100GB. Mais comment les différentes tailles se comparent-elles? Qu'est-ce qu'un gigaoctet à un téraoctet? Où un pétaoctet s'intègre-t-il? Effaçons-le! Lire la suite .

Voici un aperçu de l'un des centres de données de recherche de Google:

Comment fonctionnent les moteurs de recherche? google search centres de données
Crédit d'image: Google

Récupération et classement

La récupération correspond au moment où le moteur de recherche traite votre requête de recherche et renvoie les pages les plus pertinentes correspondant à votre requête.

La plupart des moteurs de recherche se distinguent par leurs méthodes de récupération: ils utilisent différents critères pour choisir les pages qui correspondent le mieux à ce que vous voulez trouver. C'est pourquoi les résultats de recherche varient entre Google et Bing, et pourquoi Wolfram Alpha est si unique 10 Utilisations cool de Wolfram Alpha Si vous lisez et écrivez en anglais 10 Utilisations Cool de Wolfram Alpha Si vous lisez et écrivez en anglais Il a fallu moi un peu de temps pour comprendre Wolfram Alpha et les requêtes qu'il utilise pour lancer ces résultats. Vous devez plonger profondément dans Wolfram Alpha pour vraiment l'exploiter pour ... Lire la suite.

Les algorithmes de classement vérifient votre requête de recherche par rapport à des milliards de pages afin de déterminer la pertinence de chacun. Les entreprises gardent leurs algorithmes de classement en tant que secrets d'industrie brevetés en raison de leur complexité. Un meilleur algorithme se traduit par une meilleure expérience de recherche.

Ils ne veulent pas non plus que les créateurs de sites Web jouent au système et grimpent injustement au sommet des résultats de recherche. Si la méthodologie interne d'un moteur de recherche venait à sortir, toutes sortes de personnes exploiteraient sûrement cette connaissance au détriment des chercheurs comme vous et moi.

Comment fonctionnent les moteurs de recherche? stylo html moteur de recherche meta
Crédit d'image: photovibes via Shutterstock

L'exploitation des moteurs de recherche est possible, bien sûr, mais n'est plus si facile.

À l'origine, les moteurs de recherche classaient les sites en fonction de la fréquence à laquelle les mots clés apparaissaient sur une page, ce qui entraînait un «bourrage de mots clés», ce qui remplissait les pages d'un non-sens.

Puis vint le concept de l'importance du lien: les moteurs de recherche évaluaient les sites avec beaucoup de liens entrants parce qu'ils interprétaient la popularité du site comme pertinente. Mais cela a conduit à lier le spam sur tout le web. De nos jours, les moteurs de recherche pondèrent les liens en fonction de «l'autorité» du site de liaison. Les moteurs de recherche mettent plus de valeur sur les liens d'une agence gouvernementale que les liens d'un répertoire de liens.

Demystify SEO: 5 Guides d'optimisation de moteur de recherche qui vous aident à démystifier SEO: 5 Guides d'optimisation de moteur de recherche qui vous aident à commencer La maîtrise des moteurs de recherche prend des connaissances, de l'expérience, et beaucoup d'essais et d'erreurs. Vous pouvez commencer à apprendre les principes fondamentaux et éviter les erreurs de SEO courantes facilement à l'aide de nombreux guides SEO disponibles sur le Web. Lire la suite n'est pas si important. Les bons classements de moteur de recherche viennent maintenant du contenu de haute qualité et de grandes expériences d'utilisateur.

Quelle est la prochaine étape pour les moteurs de recherche?

Ah, maintenant il y a une question intéressante. La réponse est "sémantique": la signification du contenu de la page. Vous pouvez en savoir plus sur notre aperçu du balisage sémantique et de son impact futur. Qu'est-ce que le balisage sémantique et comment cela va changer Internet pour toujours? Explication de la technologie Qu'est-ce que le balisage sémantique et comment cela va changer Internet pour toujours?

Mais voici l'essentiel.

À l'heure actuelle, vous pouvez rechercher des «cookies sans gluten», mais les résultats peuvent renvoyer des recettes pour des cookies sans gluten. Au lieu de cela, vous pourriez trouver des recettes de biscuits régulières qui disent "Cette recette n'est pas sans gluten." Il a les bons mots-clés, mais la mauvaise signification.

Avec la sémantique, vous pouvez rechercher des recettes de biscuits et ensuite supprimer certains ingrédients: farine, noix, etc. Vous pouvez également affiner les résultats à seulement des recettes avec des temps de préparation de moins de 30 minutes et des notes de 4/5 ou plus. Ce serait cool, non? Voilà où nous allons!

Encore confus sur le fonctionnement des moteurs de recherche? Découvrez comment Google explique le processus:

Si vous avez trouvé cela intéressant, vous aimeriez peut-être en savoir plus sur le fonctionnement des moteurs de recherche d' images .

Crédit d'image: prykhodov / Depositphotos

In this article