Faire de la science des données dans le nuage avec ScraperWiki

La science des données est la nouvelle grande chose de la technologie. très branché et très bien rémunéré, avec des chercheurs de données recherchés par certaines des plus grandes entreprises du monde.

La science des données est la nouvelle grande chose de la technologie.  très branché et très bien rémunéré, avec des chercheurs de données recherchés par certaines des plus grandes entreprises du monde.
Publicité

Si vous avez les facultés mentales, le flair pour la programmation et la narration, et un œil pour le design, vous pouvez faire pire que d'entrer dans la science des données. C'est la nouvelle grande chose dans la technologie; très branché et très bien rémunéré, avec des chercheurs de données recherchés par certaines des plus grandes entreprises du monde.

ScraperWiki est une société qui a longtemps été associée au domaine de la science des données. Depuis quelques années, cette start-up basée à Liverpool propose aux codeurs une plate-forme pour écrire des outils permettant d'obtenir des données, de les nettoyer et de les analyser dans le cloud.

Avec un rafraîchissement récent et la demande toujours croissante de data scientists dans l'entreprise, il vaut la peine de jeter un coup d'œil à ScraperWiki.

Divulgation complète: J'étais stagiaire à ScraperWiki l'été dernier.

Que fait ScraperWiki?

ScraperWiki se positionne comme un endroit pour obtenir, nettoyer et analyser des données, et il offre chacun de ces points. Dans sa forme la plus simple, il vous permet - l'utilisateur - d'écrire un code qui récupère des données d'une source, des outils pour les convertir en un format facile à analyser, et un stockage pour le conserver en vue d'une visualisation ultérieure. peut également gérer avec ScraperWiki.

ScraperWiki-Accueil

Il est également livré avec un certain nombre d'outils pré-construits qui automatisent les tâches répétitives, y compris l'obtention de données à partir de fichiers PDF, qui sont notoirement difficiles à décoder. Ceci est en plus de la recherche Twitter 5 Cool Twitter Search astuces pour surveiller ce que les gens disent de vous 5 cool Twitter Search astuces pour surveiller ce que les gens disent de vous Si vous possédez un site ou essayez simplement de gagner de l'argent en ligne en tant que pigiste, Il est toujours bon de savoir ce que les gens disent de vous sur Internet. Les gens peuvent citer ... Lire la suite et raclage des services publics. Vous n'avez besoin d'aucune expérience de développement de logiciel pour les utiliser.

Coût

Comme mentionné précédemment, ScraperWiki adopte le modèle de tarification freemium et propose un service à plusieurs niveaux. Ceux qui commencent juste avec la science des données ou avec des besoins limités peuvent faire usage du service gratuit. Cela vous donne trois ensembles de données - où vous stockez vos données et votre code.

Ceux qui envisagent d'écrire plusieurs scrapers ou qui veulent faire des montagnes d'analyse de données peuvent débourser de l'argent pour un compte premium. Ceux-ci commencent à 9 $ par mois et offrent 10 jeux de données. Si ce n'est toujours pas suffisant, vous pouvez toujours passer à leur niveau le plus élevé, qui est livré avec 100 jeux de données et coûte 29 $ par mois.

Codage

Les programmeurs sont souvent très particuliers quand il s'agit de coder. Certains préfèrent les langages de script sur les langages compilés. Certains préfèrent l'expérience réduite d'un éditeur de texte à celle d'un environnement de développement intégré (IDE). ScraperWiki reconnaît cela, et donne à l'utilisateur une énorme quantité de choix quand il s'agit de la façon dont vous écrivez votre code.

scraperwiki-choisissez

Si vous le souhaitez, vous pouvez écrire votre code dans le navigateur. Comme vous pouvez vous y attendre de n'importe quel IDE basé sur le navigateur de code professionnel pour coder dans le cloud Le top 3 de l'IDE basé sur le navigateur pour coder dans le cloud Read More outil de développement, avec des fonctionnalités que tout programmeur considérerait comme essentiel, comme la coloration syntaxique.

scraperwiki-coding-browser

Il y a un certain nombre de langues proposées. Ceux-ci comprennent Python Les 5 meilleurs sites Web pour apprendre la programmation Python Les 5 meilleurs sites Web pour apprendre la programmation Python Au cours de la dernière décennie, le langage de programmation Python a explosé en popularité parmi les programmeurs dans tous les domaines du codage. Des développeurs Web aux concepteurs de jeux vidéo en passant par les créateurs d'outils internes, de nombreuses personnes sont tombées ... Lire la suite, un langage de script populaire utilisé par les goûts de Google et de la NASA; Ruby 3 Des méthodes interactives, amusantes et gratuites pour commencer à apprendre le langage de programmation Ruby 3 Des méthodes interactives, amusantes et gratuites pour commencer à apprendre Le langage de programmation Ruby Ruby est un langage de script expressif et de très haut niveau. Il est principalement utilisé sur le Web dans le cadre du développement web de Ruby on Rails, mais aussi de façon autonome. Si vous êtes curieux de savoir ce que Ruby (pas ... Lire la suite, qui alimente un certain nombre de sites populaires tels que Living Social, et le populaire langage d'analyse statistique, R.

scraperwiki-language

De plus, vous pouvez aussi écrire du code depuis la ligne de commande en utilisant SSH, Git et n'importe quel éditeur de texte que vous aimez utiliser. Oui, tu l'as bien lu. SSH Qu'est-ce que SSH et en quoi il diffère de FTP [Explication de la technologie] Ce que SSH est et comment il est différent de FTP [Technologie expliquée] En savoir plus. Chaque case que vous utilisez est son propre compte Linux, et vous pouvez vous y connecter comme vous le feriez avec un VPS ou tout autre compte shell. Il ya un certain nombre d'éditeurs de texte disponibles, y compris Vim The Top 7 raisons de donner à l'éditeur de texte Vim Une chance Les 7 meilleures raisons de donner à l'éditeur de texte Vim Une chance Pour les années, j'ai essayé un éditeur de texte après l'autre. Vous l'appelez, je l'ai essayé. J'ai utilisé chacun de ces éditeurs pendant plus de deux mois comme mon principal éditeur au jour le jour. D'une certaine manière, je ... Lire la suite qui peut être étendu avec des plugins et en éditant la configuration. Ceux qui sont intimidés par Vim peuvent utiliser Nano, qui est un éditeur de texte en ligne de commande léger.

scraperwiki-vim

Les bibliothèques installées devraient être suffisantes pour écrire des outils pour récupérer des données et les traiter. Si vous avez besoin de quelque chose d'un peu plus obscur, vous pouvez toujours créer un virtualenv à partir de la ligne de commande. Comme vous pouvez le voir, les développeurs ont beaucoup de flexibilité.

Visualisation de données

Donc, vous avez vos données. Vous l'avez normalisé. Vous l'avez nettoyé. Vous l'avez analysé. Il est maintenant temps de faire de la visualisation et de montrer au monde ce que vous avez appris.

ScraperWiki permet aux développeurs d'afficher leurs données en utilisant des pages Web construites à partir du trio de HTML, CSS et JavaScript. De plus, les composants Bootstrap sont pris en charge dès la sortie de la boîte.

scraperwiki-visualisation

Il existe un certain nombre de visualisations prédéfinies, y compris celles qui tracent vos données sur une carte et trouvent des tendances dans vos résultats. Pour les utiliser, vous devez vous assurer que vos données sont stockées en tant que fichier SQLite avec le nom de fichier 'scraperwiki.sqlite'. Ensuite, vous ajoutez simplement la visualisation qui vous intéresse. Simple, non?

Conclusion

ScraperWiki offre beaucoup aux développeurs qui veulent faire de l'analyse de données sans que leur environnement de développement ne leur gêne, tout en ayant la possibilité de satisfaire même les utilisateurs les plus exigeants. Mais qu'est ce que tu penses? Faites-moi savoir dans les commentaires ci-dessous.
Crédit photo: Rocket Science (Dan Brown)

In this article