Quand il s'agit de bases de données en ligne et des informations qui peuvent être trouvées dans ce que l'on appelle communément le «web invisible 10 Moteurs de recherche pour explorer le Web invisible 10 Moteurs de recherche pour explorer le Web invisible Nous sommes familiers avec le web. Mais saviez-vous qu'il existe un vaste cache d'informations auxquelles les moteurs de recherche comme Google n'ont pas directement accès? C'est le web invisible. Lire la suite ", je ne suis pas votre utilisateur typique. Bien sûr, je passe un peu trop de temps à passer au crible les bases de données en ligne aux Archives nationales et à la salle de lecture de la CIA FOIA, mais je dois dire que rien ne m'excite plus que lorsque je trouve une table HTML remplie de volumes de données apparemment complexes et non connectées.
Le fait est que les tableaux de données sont une mine de vérités importantes. Les données sont souvent recueillies par les armées de grunts de collecte de données avec des bottes sur le terrain. Vous avez des gens du recensement des États-Unis voyageant dans tout le pays pour obtenir des informations sur les ménages et la famille. Vous avez des groupes environnementaux sans but lucratif qui recueillent toutes sortes d'informations intéressantes sur l'environnement, la pollution, le réchauffement de la planète et plus encore. Et si vous êtes dans le paranormal ou l'ufologie, il y a aussi des tableaux d'information constamment mis à jour sur les observations d'objets étranges dans le ciel au-dessus de nous.
Ironiquement, vous penseriez que n'importe quel gouvernement dans le monde serait intéressé de savoir quel genre d'engins étrangers sont repérés dans le ciel de n'importe quel pays, mais apparemment pas - du moins pas aux États-Unis de toute façon. En Amérique, la collection d'observations inhabituelles de l'artisanat ont été reléguées à des équipes d'amateurs amateurs qui affluent vers de nouvelles observations d'OVNI comme des mites à la flamme. Mon intérêt pour ces observations ne provient pas d'une fascination pour les aliens ou les objets d'autres planètes, mais d'une fascination scientifique pour les motifs - où et pourquoi plus de gens voient des choses dans le ciel, et si ces observations pouvaient refléter quelque chose de très réel. plus terre-à-terre se passe réellement.
Pour explorer les volumes de données collectées par des équipes d'amateurs d'ovnis, j'ai développé un moyen d'importer de grandes tables de données HTML dans une feuille de calcul Google, puis de manipuler et d'analyser ces données pour extraire et découvrir des informations significatives et importantes. Dans cet article, j'ai l'intention de vous montrer comment faire la même chose.
Importantes données HTML dans la feuille de calcul Google
Dans cet exemple, je vais vous montrer comment importer des données qui pourraient être stockées dans une table sur n'importe quel site Web sur Internet, dans votre feuille de calcul Google. Pensez à l'énorme volume de données disponibles sur Internet aujourd'hui sous la forme de tableaux HTML. Wikipedia seul a des données dans des tableaux pour des sujets comme le réchauffement climatique, le US Census Bureau a des tonnes de jeux de données sur la population, et un peu de Google va vous atterrir beaucoup plus au-delà de cela.
Dans mon exemple, je commence avec une base de données sur le National UFO Reporting Center qui ressemble vraiment à une base de données deep-web, mais si vous observez la structure de l'URL, c'est en fait un web semi-complexe. système de reporting basé sur des pages web statiques et des tables HTML statiques - exactement ce que nous voulons quand nous cherchons des données à importer.
NUForc.org est l'une de ces organisations qui sert comme l'un des plus grands centres de reportage pour les observations d'OVNIS. Ce n'est pas le seul, mais il est assez grand pour trouver de nouveaux jeux de données avec des observations actuelles pour chaque mois. Vous choisissez d'afficher les données triées par critères tels que l'état ou la date, et chacune d'entre elles est fournie sous la forme d'une page statique. Si vous effectuez un tri par date, puis cliquez sur la date la plus récente, vous verrez que la table répertoriée ici est une page Web statique nommée en fonction du format de la date.
Donc, nous avons maintenant un modèle pour extraire régulièrement les dernières informations d'observations de cette base de données HTML. Tout ce que vous avez à faire est d'importer la première table, utilisez l'entrée la plus récente (la plus haute) pour identifier la dernière mise à jour, puis utilisez la date de cette publication pour créer le lien URL contenant la dernière table de données HTML. Cela nécessitera simplement quelques instances de la fonction ImportHTML, puis quelques utilisations créatives des fonctions de manipulation de texte. Lorsque vous avez terminé, vous disposez de l'une des feuilles de calcul de rapports les plus cools et les plus à jour. Commençons.
Importation de tables et manipulation de données
La première étape, bien sûr, est de créer la nouvelle feuille de calcul.
Alors, comment importez-vous les tables HTML? Tout ce dont vous avez besoin est l'URL où la table est stockée, et le numéro de la table sur la page - généralement le premier listé est 1, le second est 2, et ainsi de suite. Depuis que je connais l'URL de ce premier tableau énumérant les dates et les nombres d'observations énumérées, il est possible d'importer en tapant la fonction suivante dans la cellule A1.
= importhtml ("http://www.nuforc.org/webreports/ndxpost.html?" & H2, "table", 1)
H2 contient la fonction " = hour (now ()) ", donc la table sera mise à jour toutes les heures. C'est probablement extrême pour les données qui le mettent rarement à jour, donc je pourrais probablement m'en tirer tous les jours. Quoi qu'il en soit, la fonction ImportHTML ci-dessus introduit la table comme indiqué ci-dessous.
Vous aurez besoin de faire un peu de manipulation de données sur cette page avant de pouvoir reconstituer l'URL de la deuxième table avec toutes les observations d'OVNIS. Mais allez-y et créez la deuxième feuille sur le classeur.
Avant d'essayer de construire cette deuxième feuille, il est temps d'extraire la date de publication de cette première table, afin de construire le lien vers la deuxième table. Le problème est que la date est présentée comme un format de date, pas une chaîne. Ainsi, vous devez d'abord utiliser la fonction TEXT pour convertir la date de publication du rapport en une chaîne:
= texte (A2, "mm / jj / aa")
Dans la cellule suivante à droite, vous devez utiliser la fonction SPLIT avec le délimiteur "/" pour diviser la date en mois, jour et année.
= split (D2, "/")
Vous cherchez bien! Cependant, chaque nombre doit être forcé à deux chiffres. Vous faites cela dans les cellules juste en dessous en utilisant la commande TEXT à nouveau.
= texte (E2, "00")
Un format de "00" (ce sont des zéros) force deux chiffres, ou un "0" comme espace réservé.
Vous êtes maintenant prêt à reconstruire l'intégralité de l'URL au dernier tableau HTML des nouvelles observations. Vous pouvez le faire en utilisant la fonction CONCATENATE et en rassemblant tous les bits d'information que vous venez d'extraire de la première table.
= concaténer ("http://www.nuforc.org/webreports/ndxp", G3, E3, F3, ".html")
Maintenant, sur la nouvelle feuille que vous avez créée ci-dessus (la feuille vierge), vous allez faire une nouvelle fonction "importhtml", mais cette fois pour le premier paramètre de lien URL, donc vous allez revenir à la première feuille de calcul et cliquez sur la cellule avec le lien URL que vous venez de créer.
Le deuxième paramètre est "table" et le dernier est "1" (parce que le tableau des observations est le premier et le seul sur la page). Appuyez sur Entrée, et maintenant vous venez d'importer le volume entier d'observations qui ont été affichées à cette date particulière.
Donc, vous pensez probablement que c'est un bon acte de nouveauté et tout - je veux dire, après tout, ce que vous avez fait est extrait des informations existantes à partir d'une table sur Internet et migré vers une autre table, même privé dans votre Compte Google Docs Oui c'est vrai. Cependant, maintenant qu'il se trouve dans votre propre compte Google Docs privé, vous disposez des outils et des fonctions pour mieux analyser ces données et commencer à découvrir des connexions incroyables.
Utilisation de rapports Pivot pour analyser les données importées
Devenir récemment un expert sur l'utilisation des rapports Pivot dans Google Spreadsheet Devenez un expert en analyse de données Utilisation de Google Spreadsheet Devenir un analyste de données expert Utilisation de Google Spreadsheet Outils de rapport Saviez-vous que l'un des meilleurs outils pour gérer les données? l'analyse est en réalité Google Spreadsheet? La raison en est non seulement parce qu'il peut faire presque tout ce que vous pourriez vouloir ... Lire la suite pour effectuer toutes sortes d'exploits d'analyse de données cool. Eh bien, vous pouvez faire les mêmes acrobaties d'analyse de données incroyables sur les données que vous avez importées d'Internet - vous donnant la possibilité de découvrir des connexions intéressantes que personne d'autre n'a découvert avant vous.
Par exemple, à partir du tableau des observations finales, je pourrais décider d'utiliser un rapport de pivot pour examiner le nombre de formes uniques différentes rapportées dans chaque état, comparé au nombre total d'observations dans cet état particulier. Enfin, je filtre également tout ce qui mentionne "aliens" dans la section des commentaires, pour espérer éliminer quelques-unes des entrées plus wingnut.
Cela révèle en fait des choses assez intéressantes dès le départ, comme le fait que la Californie a clairement le nombre le plus élevé d'observations signalées dans n'importe quel autre État, avec la distinction de déclarer le plus grand nombre de formes d'artisanat dans le pays. Il montre également que le Massachusetts, la Floride et l'Illinois sont aussi de grands frappeurs dans le département des observations d'OVNIS (au moins dans les données les plus récentes).
Une autre chose intéressante à propos de Google Spreadsheet est le large éventail de graphiques disponibles, y compris une carte géographique qui vous permet de disposer des «points chauds» de données dans un format graphique qui se démarque vraiment et rend ces connexions au sein des données évidentes.
Si vous y réfléchissez, ce n'est vraiment que la pointe de l'iceberg. Si vous pouvez maintenant importer des données à partir de tables de données sur n'importe quelle page sur Internet, pensez aux possibilités. Obtenez les derniers numéros de stock, ou les 10 meilleurs livres et auteurs les plus récents sur la liste des best-sellers du New York Times, ou les voitures les plus vendues dans le monde. Il existe des tables HTML sur presque tous les sujets que vous pouvez imaginer, et dans de nombreux cas, ces tables sont fréquemment mises à jour.
ImportHtml vous donne la possibilité de brancher votre feuille de calcul Google dans Internet, et de nourrir les données qui existent là-bas. Il peut devenir votre propre centre d'information personnel que vous pouvez utiliser pour manipuler et masser dans un format avec lequel vous pouvez réellement travailler. C'est juste une chose de plus cool à aimer à propos de Google Spreadsheet.
Avez-vous déjà importé des données dans vos feuilles de calcul? Quel genre de choses intéressantes avez-vous découvert dans ces données? Comment avez-vous utilisé les données? Partagez vos expériences et vos idées dans la section des commentaires ci-dessous!
Crédits image: Business Graph