Il y a quelques jours j’écrivais sur comment le paywall de Le Parisien pouvait être contourné avec des modifs CSS. Hier fs0c131y tweetait à propos d'une autre façon d’accéder aux articles.

Suite à ce tweet plusieurs discussions tournant autour du « pourquoi » cela était faisable faisaient surface. Incompétence pour les uns, stratégie pour les autres. Pourquoi stratégie ? Parce que Google, encore et toujours Google.

La théorie énoncée était la suivante:

En permettant à Google de crawler la page (et donc de lire le CSS simplement et non pas le voir appliqué comme un être humain) vous pouvez faire référencer votre page sur l'article entier et non-pas seulement sur l'exerpt disponible aux utilisateurs non abonnés.

Si l'on considère cette théorie comme vraie alors 2 possibilités :

  • Soit Le Parisien fait partie des quelques sites d'actualités "awares" et leurs concurrents sont à la traine.
  • Soit les concurrents sont au courant et gèrent Google d'une autre manière.

Je suis parti sur la 2ᵉ possibilité. Mais comment les sites peuvent-ils faire la différence entre un visiteur lambda et Google ? La première chose qui me vient à l'esprit: l'user-agent.

L'user-agent dans la navigation web

Étant donné que tout le monde n'utilise pas le même navigateur, pas le même OS, pas la même configuration, lorsque vous accédez à un site internet votre navigateur annonce ce qu'on appelle l'user-agent.

Pour faire simple, c'est un résumé de votre configuration de navigation.

Cela permet, entre autres, aux sites internets de s'adapter à la configuration utilisateur si besoin est, afin d'optimiser  son rendu.

On s'en sert aussi à des fins de tracking depuis quelque temps mais ce n'est pas le sujet d’aujourd’hui. Si cela vous intéresse je vous invite à vous renseigner sur le fingerprinting.

Donc dans le cas où les sites d'actualités réservent un traitement préférentiel à Google en se basant son l'user-agent alors nous aurions le droit au même traitement en se faisant passer pour lui. Testons.

Se faire passer pour Google

Rendons-nous donc sur un site ne cachant pas ses articles grâce à du CSS. Par exemple la voix du nord ou la semaine dans le boulonnais. Puis nous allons sur un article "réservè aux abonnés" et nous changeons ensuite notre user-agent. (Il faut recharger la page suite au changement)

Et bingo, cela fonctionne.

Nous confirmons donc au passage les 2 théories:

  • Oui, les autres journaux sont conscients de l'avantage SEO procuré lorsque qu'on donne à Google l’accès au contenu complet.
  • Oui certains font ça via l'user-agent.

Comment modifier son user-agent ?

Si vous êtes intéressé par le changement d'user-agent alors il faudra installer une extension sur votre navigateur:

Une icône apparait en haut à droite de votre navigateur. (La première fois où on clique dessus il peut y avoir un bug d'affichage, fermez et ré-ouvrez)

Cochez "Override for Domain" puis Robot => Google Bot

Actualisez la page.

Une icône apparait à droite de votre barre d'adresse.

Faites clic droit dessus puis options:

Dans "Other Settings" cochez "set user-agent spoof per tab".

Dans "Custom User-Agents" remplissez la première ligne comme ceci:

Google Bot
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Chrome
BOT

Notez que j'ai supprimé les autres user-agent inclus dans l’extension afin d'avoir une interface plus propre.

Maintenant lorsque vous vous trouverez sur une page et que vous voudrez changer d'user-agent il suffira de cliquer sur l’icône de l'extension puis sur "GoogleBot". Un petit "BOT" viendra se mettre au dessus de l’icône afin de vous rappelez que votre user-agent est actuellement modifié.

N'oubliez pas de vous remettre sur "Default" lorsque vous voudrez retourner à une navigation normale !