Pensez à vos bases de données ouvertes préférées.
Je suis sûr que Wikipédia et IMDb viennent immédiatement à l'esprit, mais vous n'avez peut-être pas besoin de toutes ces connaissances, ou d'une base de données complète sur le divertissement. Parfois, vous avez besoin d'un peu de saveur VLDB (Very Large Data Base). Quelque chose pour pimenter votre analyse de données Comment devenir un scientifique de données Comment devenir un scientifique de données La science de données est passée d'un terme nouvellement inventé en 2007 à l'une des disciplines les plus recherchées aujourd'hui. Mais que fait un data scientist? Et comment pouvez-vous percer dans le domaine? Lire la suite . Quelque chose pour mettre le "gros" dans vos gros volumes de données. Whelp, bonne personne, vous êtes au bon endroit.
Voici 15 bases de données en ligne massives Alors qu'est-ce qu'une base de données? [MakeUseOf explique] Alors, qu'est-ce qu'une base de données? [MakeUseOf explique] Pour un programmeur ou un passionné de technologie, le concept d'une base de données est quelque chose qui peut vraiment être pris pour acquis. Cependant, pour beaucoup de gens le concept d'une base de données elle-même est un peu étranger .... Lisez plus vous pouvez accéder et analyser gratuitement Excel Vs. Accès - Une feuille de calcul peut-elle remplacer une base de données? Vs Excel Accès - Une feuille de calcul peut-elle remplacer une base de données? Quel outil devez-vous utiliser pour gérer les données? Access et Excel proposent tous deux un filtrage, une collation et une interrogation de données. Nous allons vous montrer lequel est le mieux adapté à vos besoins. Lire la suite, ou juste lire à votre guise.
1000 génomes
L'achèvement du projet sur le génome humain (HGP) en 2003 n'était que le début. Depuis lors, les progrès dans la technologie de séquençage ont considérablement réduit le coût par personne, permettant une vaste expansion du HGP de sa base de recherche initiale de vingt laboratoires universitaires, dans un vaste réseau mondialisé d'installations de cartographie du génome interconnectées.
Vous pouvez télécharger une partie du projet 1000 Génomes, contenant des informations de séquençage pour plus de 2 600 personnes de 26 populations à travers le monde. C'est un fichier de 200 To, alors préparez-vous. Nous suggérons de l'utiliser en conjonction avec une puissante plate-forme de cloud computing.
Voir aussi: Base de données sur la taille du génome animal pour les données génomiques relatives à 5635 espèces.
Avions de ligne
Les paradis des planespotters. Une base de données d'images massive contenant 2 532 457 photos de toutes sortes d'aéronefs, du plus petit engin individuel à de gigantesques forteresses volantes.
Airliners dispose également d'une section étendue sur les données et l'historique de l'aéronef, toujours mise à jour en collaboration avec Aerospace Publications, afin de garantir l'exactitude des faits. Cela en a fait l'une des bases de données d'avions les plus détaillées sur Internet.
Voir aussi : Essayez Planespotters.net pour une gamme d'images différente, ou SeatGuru pour les schémas de sièges d'avion.
Les archives Internet
Le site anciennement connu sous le nom The Internet Archive, a subi une refonte massive. Le site n'avait pas beaucoup changé depuis 2002, mais beaucoup de choses ont changé depuis. L'Internet Archive a fait encore plus de plus en plus depuis les premiers jours.
Archivant tout sur Internet, le site vous donne un accès gratuit aux médias numériques, y compris les livres, la musique, les jeux Internet Archive apporte 900 Classic Arcade Games à votre navigateur. Voici 7 des meilleures archives d'Internet amène 900 jeux d'arcade classiques à votre navigateur. Voici 7 des meilleurs Arcade de votre ville peut-être fermé au milieu des années 90, mais cela ne devrait pas vous empêcher d'obtenir votre jeu classique. Lire la suite, des vidéos et bien plus encore. La taille de la mémoire est actuellement estimée à environ 10 pétaoctets. Les gammes de mémoire expliquées - gigaoctets, téraoctets et pétaoctets dans les termes de Layman Les tailles de mémoire expliquées - Gigabytes, téraoctets et pétaoctets dans les termes de Layman Il est facile de voir que 500GB est plus de 100GB. Mais comment les différentes tailles se comparent-elles? Qu'est-ce qu'un gigaoctet à un téraoctet? Où un pétaoctet s'intègre-t-il? Effaçons-le! En savoir plus, et au fur et à mesure que leurs webcrawlers continueront d'explorer, ils continueront à se développer.
Freebase
Freebase est «une base de données communautaire de personnes, de lieux et de choses bien connus», stockée dans une structure de données appelée graphe . Un graphe est composé de noeuds, connectés par leurs bords, ce qui a permis à Freebase d'étendre rapidement son contenu sans perturber les enregistrements existants.
Malheureusement, Freebase, propriété de Google, a basculé en mode lecture au début de l'année, avant que la base de données de service autonome ne soit transférée à la Wikimedia Foundation pour intégration. Fonctionnalités bêta sur Wikimedia et Preview Nouveautés avant les essais bêta Wikimedia And Preview Nouveautés avant tout le monde Le programme Beta Features de Wikimedia permettra à quiconque d'essayer les nouvelles fonctionnalités de Wikimedia et de ses wikis. Participez et aidez Wikimedia à mieux vivre pour nous tous. Lire la suite dans le projet Wikidata (fin juin 2015). Les développeurs peuvent toujours accéder à Freebase en utilisant des API existantes, mais une fois le changement effectué, les développeurs devront utiliser les API Wikimedia pour accéder aux données.
Trouver une tombe
De la base d'une équipe de rêve de connaissances Internet de Google et Wikimedia, nous passons à la morbidité. Find a Grave est une énorme base de données de 121 millions d'enregistrements de sépultures à travers le monde.
Les documents les plus complets proviennent des États-Unis, mais il existe des pays plus petits avec de grandes quantités de données. Compléter avec des photos, des monuments intéressants, et un certain nombre d'épitaphes intéressantes ... si vous avez besoin d'inspiration?
GameRankings
Une base de données gérée par l'équipe de révision toujours présente à Gamespot. GameRankings donne une représentation bien arrondie de la popularité d'un jeu en couvrant les critiques de jeux en ligne et hors ligne de sources fiables 6 Places To Find Quels sont les meilleurs jeux vidéo Ever 6 Places To Find Quels sont les meilleurs jeux vidéo? Pour les fans de jeux vidéo, se demander ce que sont les meilleurs jeux, ou du moins ce que les experts pensent être les meilleurs. Lire la suite .
La base de données Big Cartoon
Dans la même veine que le IMDb massif, The Big Cartoon Database se concentre exclusivement sur toutes les choses animées: dessins animés, films, émissions de télévision, publicités, et plus encore. S'il s'agit d'une animation, vous la trouverez ici. Si ce n'est pas le cas, inscrivez-vous comme contributeur à cette base de données en constante évolution.
The Big Cartoon Database a un site jumeau dans la base de données Big Comic, qui contient plus de 100 000 albums de bandes dessinées. 9 Comics sur le thème du jeu vidéo Livres que vous devriez lire 9 Comics sur le thème du jeu vidéo Livres à lire Il est temps d'éteindre lit. Mais vous êtes toujours impatient de jouer à votre jeu préféré. Vous devez vous détendre, alors pourquoi ne pas lire votre jeu préféré à la place? Lire la suite, couvrant environ 5000 séries, avec plus de 35 000 balayages de couverture. Il contient également une fonction de recherche complète, y compris un guide de prix de bande dessinée détaillant les valeurs de revente actuelles aux différents niveaux de classement.
Voir aussi : La base de données Grand Comics, une base de données d'entreprises non commerciales de bandes dessinées dans le monde entier.
CiteSeer X
Créer des bibliographies et des notes de bas de page est plus facile avec Bookends pour Mac Créer des bibliographies et des notes de bas de page est plus facile Avec Bookends pour Mac Bookends pour Mac effectue pratiquement les tâches de formatage de recherche et de citation. Lire la suite et les universitaires, CiteSeer X est un moteur de recherche publique et une bibliothèque numérique d'articles scientifiques et universitaires. Souvent considéré comme le premier système d'indexation de citations automatisé, il a inspiré Google Scholar et Microsoft Academic Search. Bien que ce dernier a été depuis intégré dans le moteur de recherche Bing.
CiteSeer X se concentre sur l'indexation de documents scientifiques publics. Si votre document de recherche est ouvertement distribué, il a plus de chance d'apparaître dans le moteur de recherche. CiteSeer X est un excellent exemple de la puissance du savoir partagé mis à la disposition d'un public beaucoup plus large.
Voir aussi : Google Scholar pour une gamme différente de livres et de citations.
WorldCat
Malheureusement, pas une base de données de chaque image de chat sur Internet. Maintenant ce serait quelque chose! WorldCat est beaucoup plus utile que cela. Le site de référence documente les collections de plus de 72 000 bibliothèques à travers le monde, couvrant 170 pays et territoires. Ceci est utile si vous faites des recherches dans un pays étranger, ou si vous avez simplement envie de lire des livres rares en personne.
Le seul inconvénient est la méthode de mise à jour. WorldCat utilise un modèle de traitement par lots plutôt que de permettre aux utilisateurs d'accéder aux données en temps réel. Ainsi, WorldCat n'indique pas le statut de prêt des livres catalogués, si une bibliothèque possède plusieurs exemplaires d'un livre, ou si le livre en question est directement accessible à ceux qui souhaitent visiter. C'est toujours un outil très utile, surtout lorsqu'il est utilisé avec CiteSeer X.
L'archive Simpsons
"Le centre d'information Internet sur les guides, les nouvelles et les informations de Simpsons." Je n'aurais pas pu le dire moi-même. Le favori des fans de longue date a débuté en 1994, et il continue d'être fort même sans multimédia interactif, ne serait-ce que pour échapper à l'œil vigilant du service juridique de Fox.
WinCustomize
Vous trouverez l'une des plus grandes bases de données d'outils de personnalisation pour Windows Comment personnaliser vos effets sonores Windows Comment personnaliser vos effets sonores Windows Vous pouvez faire sonner votre ordinateur comme votre émission TV préférée, enregistrer vos propres sons ou les désactiver complètement . Voici un cours intensif sur le changement et l'enregistrement des effets sonores pour Windows. Lire la suite ici, allant de XP à Windows 8.1 10 Windows 8 Hacks de l'écran de démarrage 10 Windows 8 Hacks de l'écran de démarrage Windows se déplace vers une direction plus verrouillée avec Windows 8 et son écran de démarrage et l'environnement d'application «moderne». On ne peut nier cela - vous ne pouvez même pas définir un fond d'écran de démarrage personnalisé sans installer ... Lire la suite. Je suis sûr qu'il ne faudra pas longtemps pour que Windows 10 commence à faire le tour. Sa vaste popularité provient d'une combinaison de forces. Propriétaire Stardock, subventionne le site ce qui signifie qu'il y a peu ou pas de publicité. Il bénéficie également du nombre d'individus acheminés vers le site depuis Stardock.
Ultimate Guitar Archive
Ah, un voyage sur la voie de la nostalgie vers une base de données me rappelant que je ne devais jamais être Roger Waters. En fait, je peux à peine jouer, mais c'est une autre histoire.
The Ultimate Guitar Archive, ou simplement Ultimate-Guitar (UG), compte plus de 1 500 000 membres inscrits à travers le monde, supervisant une quantité ridiculement grande de contenu communautaire. Il est presque ahurissant de voir combien d'informations liées à la guitare sont dispersées à partir d'une source unique. La communauté ne dispose pas d'une base de données massive, elle collabore aussi fréquemment les uns avec les autres pour créer des projets musicaux tentaculaires.
Des plantes pour un avenir
Plants for a Future documente l'horticulture écologiquement durable. Il a une grande part dans la diffusion des connaissances sur la diversité des espèces et l'importance de la permaculture. Ce qui a commencé comme un petit projet dans les profondeurs de Cornwall est lentement devenu une base de données mondiale.
La croissance est quelque peu lente, et se concentre principalement sur la permaculture au Royaume-Uni et dans l'UE, mais de nombreux enregistrements peuvent être échangés pour des sites spécifiques aux États-Unis, une fois que vous avez les détails sur les espèces.
Quandl
Power-up avec ce complément Excel pour traiter et analyser les données Power Up Excel avec 10 Add-Ins pour traiter, analyser et visualiser des données comme un Pro Power Up Excel avec 10 Add-Ins pour traiter, analyser et visualiser des données comme un Pro Vanilla Excel est incroyable, mais vous pouvez le rendre encore plus puissant avec des compléments. Quelles que soient les données que vous devez traiter, il est probable que quelqu'un ait créé une application Excel pour cela. Voici une sélection. Lire la suite . Le site principal Quandl agit comme une base de données de recherche, localiser les bases de données du monde entier qui correspondent à vos termes de recherche. Essayez-le si vous avez besoin de données supplémentaires à la hâte, ou tout simplement de jouer avec de grands ensembles de données (honnêtement, qui n'en a pas?!).
Voir aussi : Le moteur de recherche de la base de données Enigma.
Petites images
Le jeu de données Tiny Images agit comme un dictionnaire visuel. Cliquez n'importe où dans l'image et un terme de recherche apparaît avec des informations supplémentaires. Vous pouvez également utiliser des termes spécifiques pour parcourir 80 millions d'images .
La base de données fait partie d'un projet d'apprentissage automatique plus large Comment un logiciel intelligent va-t-il changer votre vie? Comment un logiciel intelligent va-t-il changer votre vie Skynet arrive, et il sera incroyablement populaire. De nouvelles technologies de l'intelligence artificielle émergent qui vont changer notre façon de vivre, de jouer et de travailler. Read More se concentre sur l'enseignement des ordinateurs pour «voir» et «lire» les champs sémantiques dans les images.
Bonus Source: / r / datasets
La "page d'accueil d'Internet" est une base solide pour les amateurs de data mining dans le monde entier. Il existe des subreddits dédiés à l'apprentissage automatique, l'exploration de données, le texte aux données et les jeux de données. Si vous avez besoin de quelque chose de spécifique, faites une demande. De nouveaux jeux de données apparaissent chaque semaine.
Méfiez-vous des ensembles de données intéressants affichés comme les niveaux de vaccination dans les garderies et les écoles pour la Californie.
Utilisez-vous la richesse?
Internet a créé l'opportunité la plus claire pour les individus de se réunir et de concentrer leurs connaissances dans une base de données unique. Nous essayons vaillamment de tout documenter à propos de quoi que ce soit. Certaines de ces bases de données sont à lire, d'autres à apprendre Comment utiliser un tableau croisé dynamique Excel pour l'analyse des données Comment utiliser un tableau croisé dynamique Excel pour l'analyse des données Le tableau croisé dynamique est l'un des outils les plus puissants du répertoire Excel 2013. Il est fréquemment utilisé pour l'analyse de données volumineuses. Suivez notre démonstration étape par étape pour tout savoir à ce sujet. Lire la suite, mais nous espérons que vous les apprécierez tous.
Quelles sont vos bases de données préférées? Existe-t-il des sources de référence massives ouvertes que j'aurais dû inclure dans cette liste?
Crédits image: serveur réseau via Shutterstock, bibliothèque via Shutterstock