Faire des études de recherche Web visionnaires à l'aide de données Web approfondies et de requêtes Web Excel

Que diriez-vous si je vous disais que vous avez les outils à votre disposition pour faire de la recherche révolutionnaire et révolutionnaire? Eh bien, vous faites, et je vais vous montrer comment.

Que diriez-vous si je vous disais que vous avez les outils à votre disposition pour faire de la recherche révolutionnaire et révolutionnaire?  Eh bien, vous faites, et je vais vous montrer comment.
Publicité

Que diriez-vous si je vous disais que vous avez les outils à votre disposition pour faire de la recherche révolutionnaire et révolutionnaire? Eh bien, vous faites, et je vais vous montrer comment.

Les gouvernements, les institutions académiques et les organismes de recherche à but non lucratif publient des tableaux remplis de données dans le domaine public. Sans personne utilisant cette information, sa vraie valeur ne sera jamais connue. Malheureusement, peu de gens ont la perspicacité, les compétences ou les outils pour prendre les données et faire des corrélations intéressantes entre des informations apparemment non connectées.

Contexte

Une grande partie de la recherche que je fais pour mon propre blog implique de creuser à travers ce que l'on appelle le web invisible 10 Les moteurs de recherche pour explorer le Web invisible 10 Les moteurs de recherche pour explorer le Web invisible Nous connaissons le Web. Mais saviez-vous qu'il existe un vaste cache d'informations auxquelles les moteurs de recherche comme Google n'ont pas directement accès? C'est le web invisible. Lire la suite, pour découvrir des données qui ont été publiées au public, mais cachées des moteurs de recherche Les 5 moteurs de recherche les plus avancés sur le Web Les 5 moteurs de recherche les plus avancés sur le Web Lisez plus dans une base de données en ligne. Ceci est le web profond TorSearch vise à être Google pour le Web profond TorSearch vise à être Google pour le Web profond Tor est un service caché et une partie du Web profond. TorSearch est un nouveau moteur de recherche anonyme que son fondateur Chris MacNaughton veut faire du "Google of Tor". Lire la suite, et il est rempli de données précieuses. Très souvent, je tombe sur des pages Web qui regorgent de données parmi les plus précieuses sur des sujets allant des données du recensement aux études épidémiologiques sur les maladies rares. J'ai constamment de nouvelles idées sur la façon d'essayer de corréler ces sources de données disparates en utilisant divers outils - et l'un des outils les plus précieux que j'ai trouvé est la requête Web dans Microsoft Excel.

Trouver des corrélations de données intéressantes

Ce que je vais vous montrer aujourd'hui est un exemple de la façon dont vous pouvez utiliser Excel Web Queries pour extraire des données de différents sites Web et les tracer les uns par rapport aux autres afin de rechercher des corrélations potentielles entre les données.

La façon de commencer un exercice comme celui-ci est de proposer une hypothèse intéressante. Par exemple - pour garder les choses intéressantes ici - je vais supposer au hasard que les taux d'autisme qui montent en flèche aux États-Unis sont causés par l'inoculation de vaccins ou la présence croissante de champs électromagnétiques chez les enfants, comme les téléphones cellulaires. C'est une hypothèse folle que vous trouverez sur la plupart des sites de théorie du complot, mais c'est ce qui rend ce jeu amusant. Alors commençons, allons-nous?

Tout d'abord, ouvrez Excel, allez à l'élément de menu de données, et trouvez l'icône "Du Web" dans le ruban du menu.

web-query-excel1

C'est ce que vous utiliserez pour importer les différentes tables de données des nombreux sites Web qui les ont publiées.

Importation de données Web dans Excel

Ainsi, dans le passé, vous deviez essayer de copier les données de cette table sur une page Web, les coller dans Excel, et ensuite gérer tous les problèmes de mise en forme. Total des tracas, et beaucoup de fois ça ne vaut pas le mal de tête. Eh bien, avec Excel Web Queries, ces jours ont disparu. Bien sûr, avant de pouvoir importer les données, vous devez parcourir Google sur le Web pour trouver les données dont vous avez besoin sous forme de tableau. Dans mon cas, j'ai trouvé un site Web qui avait publié les statistiques du ministère de l'Éducation pour le nombre d'élèves des écoles publiques américaines qui ont été identifiés comme ayant l'autisme. Une belle table a fourni des chiffres de 1994 jusqu'en 2006.

Il vous suffit donc de cliquer sur "À partir du Web", de coller l'URL de la page Web dans le champ d'adresse de la requête, puis de faire défiler la page jusqu'à ce que vous voyiez la flèche jaune en regard des données à importer.

web-query-excel2

Cliquez sur la flèche pour qu'elle devienne une coche verte.

web-query-excel3

Enfin, indiquez à Excel le champ dans lequel vous souhaitez coller les données de la table dans votre nouvelle feuille de calcul.

web-query-excel4

Puis - Voila! Les données circulent automatiquement dans votre feuille de calcul.

web-query-excel5
Donc, avec une tendance des taux d'autisme des écoles publiques de 1996 à 2006 en place, il est temps d'aller à la recherche de la vaccination et les tendances d'utilisation de téléphone cellulaire aussi bien.

Heureusement, j'ai rapidement trouvé des tendances pour les abonnés de téléphonie cellulaire aux États-Unis de 1985 à 2012. D'excellentes données pour cette étude particulière. Encore une fois, j'ai utilisé l'outil Excel Web Query pour importer cette table.

web-query-excel6

J'ai importé cette table dans une nouvelle feuille propre. Ensuite, j'ai découvert les tendances de la vaccination pour le pourcentage d'écoliers vaccinés pour différentes maladies. J'ai importé cette table en utilisant l'outil de requête Web dans une troisième feuille. Donc, finalement, j'avais trois feuilles avec les trois tables remplies avec les données apparemment déconnectées que j'avais découvert sur le Web.

web-query-excel8

L'étape suivante consiste à utiliser Excel pour analyser les données et essayer d'identifier les corrélations. C'est là que l'un de mes outils d'analyse de données favoris entre en ligne de compte: le tableau croisé dynamique.

Analyse des données dans Excel avec le tableau croisé dynamique

Il est préférable de créer votre tableau croisé dynamique dans une nouvelle feuille vide. Vous voulez utiliser l'assistant pour ce que vous allez faire. Pour activer l'Assistant Tableau croisé dynamique dans Excel, vous devez appuyer sur Alt-D en même temps jusqu'à ce qu'une fenêtre de notification s'affiche. Lâchez ensuite ces boutons et appuyez sur la touche "P". Ensuite, vous verrez l'assistant apparaître.

web-query-excel10

Dans la première fenêtre de l'assistant, vous voulez sélectionner "Plages de consolidation multiples", ce qui vous permet de sélectionner les données de toutes les feuilles que vous avez importées. En faisant cela, vous pouvez consolider toutes ces données apparemment sans rapport en une seule, puissante pivots. Dans certains cas, vous devrez peut-être masser certaines données. Par exemple, j'ai dû corriger le champ "Année" dans le tableau de l'autisme pour qu'il montre "1994" au lieu de "1994-95" - ce qui le rend meilleur avec les tableaux sur les autres feuilles, qui avaient aussi l'année primaire champ.

web-query-excel11

Ce champ commun entre les données est ce dont vous avez besoin pour essayer de corréler les informations, alors gardez cela à l'esprit lorsque vous recherchez vos données sur le Web.

Une fois que le tableau croisé dynamique est terminé et que toutes les différentes valeurs de données sont affichées dans une table, il est temps de faire une analyse visuelle pour voir s'il y a une connexion évidente qui vous saute aux yeux.

Visualisation des données est la clé

Avoir un tas de chiffres dans une table est génial si vous êtes économiste, mais le moyen le plus rapide et le plus facile d'avoir ce moment "aha!" Quand vous essayez de trouver des connexions comme une aiguille dans une botte de foin, c'est graphiques. Une fois que votre graphique croisé dynamique est en place avec tous les ensembles de données que vous avez collectés, il est temps de créer votre graphique. Habituellement, un graphique linéaire fera mieux, mais cela dépend des données. Il y a des moments où un graphique à barres fonctionne beaucoup mieux. Essayez de comprendre le type de données que vous regardez et les comparaisons de formulaires qui fonctionnent le mieux.

Dans ce cas, je regarde les données au fil du temps, donc un graphique linéaire est vraiment la meilleure façon de voir les tendances au fil des ans. Relevant les taux d'autisme (vert) contre les taux de vaccination réduits (bleu foncé), les vaccins contre la varicelle (bleu clair) et les téléphones cellulaires (violets), une corrélation étrange est soudainement apparue dans cet ensemble de données avec lequel je jouais.

web-query-excel12

Assez curieusement, la tendance de l'utilisation des téléphones cellulaires de 1994 à 2006 correspond presque parfaitement à la hausse des taux d'autisme au cours de la même période. Bien que le modèle ait été complètement inattendu, il illustre parfaitement comment l'association de données intéressantes peut révéler des pistes fascinantes, ce qui vous donne plus de perspicacité et de motivation pour continuer à avancer et rechercher davantage de données susceptibles de renforcer votre hypothèse.

Une corrélation comme celle-ci ne prouve rien. Il y a beaucoup de tendances qui augmentent avec le temps - le modèle pourrait être une coïncidence, mais cela pourrait aussi être un indice important dans votre quête continue de plus de données sur Internet. Heureusement, vous avez un outil puissant appelé Excel Web Queries qui rendra cette quête un peu plus facile.

Crédit photo: Kevin Dooley via photopin cc

In this article