3 façons de supprimer les pages de blog indésirables de Google

Êtes-vous un croyant dans l'idée qu'une fois que quelque chose est publié sur Internet, il est publié pour toujours? Eh bien, aujourd'hui, nous allons dissiper ce mythe.

La vérité est que dans de nombreux cas, il est tout à fait possible d'éradiquer l'information sur Internet. Bien sûr, il y a un enregistrement des pages Web qui ont été supprimées si vous recherchez la Wayback Machine, non? Oui, absolument. Sur la Wayback Machine, il existe des enregistrements de pages Web remontant à plusieurs années - des pages que vous ne trouverez pas dans une recherche Google car la page Web n'existe plus. Quelqu'un l'a supprimé ou le site Web a été fermé.

Donc, il n'y a pas moyen de contourner ça, non? L'information sera gravée pour toujours dans la pierre de l'Internet, là pour les générations à voir? Eh bien, pas exactement.

La vérité est que s'il est difficile, voire impossible, d'effacer les nouvelles majeures qui ont proliféré d'un site web ou d'un blog à un autre comme un virus, il est en fait assez facile d'éradiquer complètement une page web ou plusieurs pages web de tous les records d'existence - pour supprimer cette page pour les deux moteurs de recherche ainsi que la Wayback Machine La nouvelle Wayback Machine vous permet de voyager visuellement dans Internet Time La nouvelle Wayback Machine vous permet de voyager visuellement dans Internet Time Il semble que depuis le lancement de Wayback Machine dans En 2001, les propriétaires du site ont décidé de lancer le back-end basé sur Alexa et de le redessiner avec leur propre code open source. Après avoir effectué des tests avec le ... Lire la suite. Il y a bien sûr une prise, mais nous y reviendrons.

3 façons de supprimer des pages de blog sur le net

La première méthode est celle que la majorité des propriétaires de sites utilisent, car ils ne savent pas mieux - simplement en supprimant des pages Web. Cela peut arriver parce que vous avez réalisé que vous avez du contenu en double sur votre site ou parce que vous avez une page que vous ne souhaitez pas afficher dans les résultats de recherche.

Simplement supprimer la page

Le problème avec la suppression complète des pages de votre site Web est que puisque vous avez déjà établi la page sur le net, il y a probablement des liens de votre propre site ainsi que des liens externes d'autres sites vers cette page particulière. Lorsque vous le supprimez, Google reconnaît immédiatement cette page comme une page manquante.

Fichier non trouvé

Ainsi, en supprimant votre page, vous avez non seulement créé un problème avec des erreurs d'exploration "Non trouvé" pour vous-même, mais vous avez également créé un problème pour tous ceux qui ont déjà lié à la page. Habituellement, les utilisateurs qui accèdent à votre site à partir de l'un de ces liens externes verront votre page 404, ce qui n'est pas un problème majeur, si vous utilisez quelque chose comme le code 404 personnalisé de Google pour donner aux utilisateurs des suggestions utiles. Mais, vous penseriez qu'il pourrait y avoir des manières plus gracieuses de supprimer des pages des résultats de recherche sans enlever toutes ces 404 pour les liens entrants existants, droit?

Eh bien, il y en a.

Supprimer une page des résultats de recherche Google

Tout d'abord, vous devez comprendre que si la page Web que vous souhaitez supprimer des résultats de recherche Google n'est pas une page de votre propre site, vous n'avez pas de chance, sauf s'il existe des raisons légales ou si le site a publié votre propre informations en ligne sans votre permission. Si tel est le cas, utilisez l'outil de résolution des problèmes de suppression de Google pour envoyer une demande de suppression de la page des résultats de recherche. Si vous avez un cas valide, votre mai trouver un certain succès ayant la page supprimée - bien sûr, vous pourriez avoir encore plus de succès juste en contactant le propriétaire du site Web Comment faire pour supprimer les informations personnelles False sur Internet comme je l'ai décrit comment faire en 2009.

Maintenant, si la page que vous souhaitez supprimer des résultats de recherche est sur votre propre site, vous avez de la chance. Tout ce que vous devez faire est de créer un fichier robots.txt et assurez-vous que vous avez désactivé la page spécifique que vous ne voulez pas dans les résultats de la recherche, ou le répertoire entier avec le contenu que vous ne voulez pas indexé. Voici à quoi ressemble une seule page.

 User-agent: * Disallow: /my-deleted-article-that-i-want-removed.html

Vous pouvez bloquer les robots d'exploration de répertoires entiers de votre site comme suit.

 Utilisateur-agent: * Disallow: / content-about-personal-stuff /

Google a une excellente page de support qui peut vous aider à créer un fichier robots.txt si vous n'en avez jamais créé un auparavant. Cela fonctionne très bien, comme je l'expliquais récemment dans un article sur la structuration des accords de syndication Comment négocier les accords de syndication et protéger vos classements de recherche Comment négocier les accords de syndication et protéger vos classements de recherche La syndication est à la mode ces jours-ci. Mais soudainement, vous pourriez trouver que le partenaire de syndication est plus haut que vous dans les résultats de recherche pour une histoire que vous avez écrit à l'origine! Protégez vos classements de recherche. Lisez la suite pour ne pas vous blesser (demandez aux partenaires de syndication d'interdire l'indexation de leurs pages où vous êtes syndiqués). Une fois que mon propre partenaire de syndication a accepté de le faire, les pages qui ont été dupliquées à partir de mon blog ont complètement disparu des listes de recherche.

google-listings

Seul le site principal arrive à la troisième place pour la page où ils listent notre titre, mais mon blog est maintenant répertorié aux premier et deuxième emplacements; quelque chose qui aurait été presque impossible si un site Web d'autorité supérieure avait indexé la page dupliquée.

Ce que beaucoup de gens ne réalisent pas, c'est que cela est également possible avec Internet Archive (la Wayback Machine). Voici les lignes que vous devez ajouter à votre fichier robots.txt pour y arriver.

 Utilisateur-agent: ia_archiver Disallow: / sample-category /

Dans cet exemple, je demande à Internet Archive de supprimer tout contenu du sous-répertoire sample-category de mon site à partir de la Wayback Machine. L'archive Internet explique comment procéder sur leur page d'aide à l'exclusion. C'est aussi là qu'ils expliquent que "The Internet Archive n'est pas intéressé à offrir un accès à des sites Web ou d'autres documents Internet dont les auteurs ne veulent pas que leurs documents soient dans la collection".

Cela va à l'encontre de la croyance populaire selon laquelle tout contenu posté sur Internet est balayé dans les archives pour l'éternité. Non - les webmasters qui possèdent le contenu peuvent spécifiquement retirer le contenu de l'archive en utilisant l'approche robots.txt.

Supprimer une page individuelle avec des balises Meta

Si vous ne souhaitez supprimer que quelques pages individuelles des résultats de recherche Google, vous n'avez pas du tout à utiliser l'approche robots.txt, vous pouvez simplement ajouter la méta-balise "robots" appropriée aux pages individuelles, et dites aux robots de ne pas indexer ou suivre les liens sur la page entière.

external-links3

Vous pouvez utiliser le méta «robots» ci-dessus pour empêcher les robots d'indexer la page, ou vous pouvez demander au robot Google de ne pas indexer afin que la page ne soit supprimée que des résultats de recherche Google.

C'est à vous de décider comment gérer les robots avec la page et si la page est listée ou non. Pour quelques pages individuelles, cela peut être la meilleure approche. Pour supprimer un répertoire entier de contenu, utilisez la méthode robots.txt.

L'idée de "supprimer" le contenu

Cette sorte de tourne la notion entière de «supprimer le contenu d'Internet» sur sa tête. Techniquement, si vous supprimez tous vos propres liens vers une page de votre site et que vous les supprimez de la recherche Google et d'Internet Archive à l'aide de la technique robots.txt, la page est pratiquement supprimée d'Internet. Le truc sympa, c'est que s'il y a des liens existants vers la page, ces liens continueront à fonctionner et vous ne déclenchez pas d'erreurs 404 pour ces visiteurs.

C'est une approche plus «douce» pour supprimer le contenu d'Internet sans complètement gâcher la popularité de lien existante de votre site sur Internet. En fin de compte, c'est à vous de décider comment gérer le contenu collecté par les moteurs de recherche et Internet Archive, mais souvenez-vous toujours que malgré ce que les gens disent de la durée de vie des éléments mis en ligne, .