Źródło: Tom Gersic, Big Data Made Small with Heroku, DynamoDB, and Elastic Map Reduce
It’s impossible to overstress this:
80% of the work in any data project is in cleaning the data.— DJ Patil, „Data Jujitsu”
- Bzyl, Włodzimierz. 4 książki z Project Gutenberg.
- Bełcik, Jakub.
- Białkowski, Dominik.
- Brzeziński, Damian.
- Cała, Mariusz.
- Dermont, Jacek. Lista anime.
- Detlaf, Krzysztof.
- Dępczyk, Michał.
- Dobrzycki, Wojciech.
- Dolata, Jędrzej.
- Domurat, Szymon.
- Duwe, Oskar.
- Elszkowski, Adrian.
- Gałka, Jacek.
- Głowacki, Michał.
- Gniado, Bartosz.
- Groszek, Rafał.
- Januszewski, Tomasz.
- Jaźwiński, Robert.
- Karczewski, Kamil.
- Karwowski, Kamil.
- Kłeczek, Piotr.
- Kotłowski, Piotr.
- Koźmiński, Marcin.
- Królik, Przemysław.
- Kubacki, Konrad.
- Kwiatkowski, Mateusz.
- Lewandowska, Marta.
- Łuczun, Rafał.
- Malinowski, Piotr.
- Małecki, Maciej.
- Matulewski, Damian.
- Melzer, Grzegorz.
- Mieszała, Konrad.
- Motel, Mateusz.
- Motławski, Mateusz.
- Napiórkowski, Sebastian. Cascading Flight Delays.
- Osękowski, Dominik.
- Osiński, Miłosz.
- Ostrowski, Michał.
- Paczyński, Łukasz.
- Piasecka, Aleksandra.
- Pietraszuk, Bartłomiej.
- Pikora, Mateusz.
- Plichta, Oskar.
- Puchalski, Paweł.
- Rogaszewski, Piotr.
- Rybarczyk, Karolina.
- Sawicki, Paweł.
- Siora, Kacper.
- Skiba, Marek.
- Skowroński, Krzysztof.
- Smykowski, Adrian.
- Sott, Tomasz.
- Stefanowicz, Michał.
- Szygenda, Mateusz.
- Tomczak, Robert Lista lotnisk.
- Wąsowicz, Michał.
- Winsławski, Bartłomiej.
- Wiśniewski, Konrad.
- Wiśniewski, Konrad.
- Zdunek, Kamil.
- Żarkowski, Mateusz.
- GitHub Archive
- Ilya Grigorik, Analyzing Millions of GitHub Commits
Przykładowy JSON:
{
"repository": {
"master_branch": "master",
"pushed_at": "2013-03-31T06:14:38-07:00",
"created_at": "2011-01-12T03:10:05-08:00",
"language": "JavaScript",
"forks": 4,
"stargazers": 8,
"watchers": 8,
"homepage": "",
"description": "",
"url": "https://github.com/wbzyl/nosql-tutorial",
"name": "nosql-tutorial",
"id": 1245063,
"fork": false,
"size": 564,
"owner": "wbzyl",
"private": false,
"open_issues": 0,
"has_issues": true,
"has_downloads": true,
"has_wiki": true
},
"actor_attributes": {
"email": "matwb@univ.gda.pl",
"location": "Poland",
"blog": "http://tao.inf.ug.edu.pl/",
"company": "Institute of Informatics, The University of Gdańsk",
"name": "Wlodek Bzyl",
"gravatar_id": "5daf79134c95a64ccdbf2bd477e52392",
"type": "User",
"login": "wbzyl"
},
"actor": "wbzyl",
"url": "https://github.com/wbzyl/nosql-tutorial/compare/073c0ed4c5...e5a8ae8209",
"type": "PushEvent",
"public": true,
"payload": {
"head": "e5a8ae820950953ce115801fe099d42ecb481ed1",
"ref": "refs/heads/master",
"size": 1,
"shas": [
[
"e5a8ae820950953ce115801fe099d42ecb481ed1",
"matwb@univ.gda.pl",
"update README-Ruby.md",
"Wlodek Bzyl",
true
]
]
},
"created_at": "2013-03-31T06:14:39-07:00"
}