Big Clean je jednodenní workshop zaměřený na čištění dat veřejné správy, který se v sobotu 19.3. 2011 odehraje současně v Česku (Praha) a Finsku (Jyväskylä).
Cílem workshopu je dojít od nestrukturovaných dat (např. HTML), se kterými se lze setkat na webových stránkách institucí veřejné správy, k datům ve strukturované podobě (např. CSV). Účastníci budou pod vedením odborníků data převádět, čistit, dále zpracovávat a nakonec publikovat na webu.
Data se tak stanou lépe zpracovatelná a umožní nové způsoby využití, ať už půjde o vytváření užitečných služeb pracujících s těmito daty nebo jejich propojování s dalšími daty (např. v mash-upech).
Big Clean nebude jen o převádění dat a jejich zveřejňování na webu, ale stejnou měrou také o jejich použití pro analýzy, vizualizace a žurnalistiku založenou na datech. Kromě toho budou během dne probíhat skupinové diskuse o otevřených datech ve veřejné správě a jejich hodnotě pro společnost.
Datum a čas: 19.3. 2011, 10:00 – 17:00 (GMT+1)
Místo: Národní technická knihovna, Technická 6, Praha 6 – Dejvice (http://bit.ly/techlib)
Big Clean najdete na webové adrese http://www.bigclean.cz, pak taky na Twitteru jako @BigCleanCZ nebo s tagem #bigcleancz.
» Zaregistrujte se
Účast zdarma. Laptop s sebou. Maximální počet účastníků: 50 Kapacita navýšena na 200!
Pro koho je workshop určen?
- Vývojáře, kteří se chtějí naučit lépe pracovat s daty
- Novináře, kteří se chtějí naučit čerpat z dostupných dat
- Zastánce otevřeného přístupu k datům veřejného sektoru
Program
| Dopoledne, 10:00 – 12:30 | |||
|---|---|---|---|
| 10:00 – 10:15 | Registrace | ||
| 10:15 – 10:30 | Zahájení workshopu | ||
| Získávání a čištění dat | Otevřená data ve veřejné správě | ||
| 10:30 – 11:00 | Screen-scraping | 10:30 – 12:30 | Diskuse |
| 11:00 – 12:30 | Čištění dat | ||
| Přestávka na oběd, 12:30 – 13:30 | |||
| Odpoledne, 13:30 – 16:30 | |||
| Využití dat | Odpolední hackování | ||
| 13:30 – 14:45 | Analýza dat | 13:30 – 16:30 | Scrapování a čištění dat |
| 14:45 – 15:00 | Přestávka | ||
| 15:00 – 16:30 | Využití dat v žurnalistice | ||
| Shrnutí workshopu, 16:30 – 17:00 | |||
Screen-scrapery
- Seznam insolvenčních správců
- Zdroj: https://isir.justice.cz/InsSpravci/public/seznamFiltr.do
- Scraper: http://scraperwiki.com/scrapers/seznam_insolvencnich_spravcu/
- Programovací jazyk: Python
- Seznam amnestií
- Zdroj: http://www.hrad.cz/cs/prezident-cr/rozhodnuti-prezidenta/amnestie-a-milosti/index.shtml
- Scraper: http://scraperwiki.com/scrapers/milosti/
- Programovací jazyk: Ruby
- Seznam veřejných sbírek
- Zdroj: http://aplikace.mvcr.cz/seznam-verejnych-sbirek/Detail.aspx
- Scraper: http://scraperwiki.com/scrapers/public_collections/
- Programovací jazyk: Python
- Vizualizace 1: http://bit.ly/gQ7qfH
- Vizualizace 2: http://verejnesbirky.dev.atomicant.co.uk/
- Meteočidla
- Zdroj: http://www.dpp.cz/meteocidla/
- Scraper: http://scraperwiki.com/scrapers/meteocidla/
- Programovací jazyk: PHP
- Centrální evidence dotací z rozpočtu – seznam příjemců dotací
- Zdroj: http://www.mfcr.cz/cps/rde/xchg/mfcr/xsl/cedr.html
- Scraper: http://scraperwiki.com/scrapers/prijemci_dotaci_cedr_1/
- Programovací jazyk: PHP
Účast přislíbili
- Jan Boček (@chlebovo) - žurnalistika založená na datech (slidy)
- Adam Javůrek (@adbar) – žurnalistika založená na datech (slidy)
- Jindřich Mynarz (@jindrichmynarz) – screen-scraping se ScraperWiki (slidy)
- Martin Nečaský (MFF UK) – diskuse o otevřených datech ve veřejné správě
- Jakub Nešetřil (@jakubnesetril) – Google Refine
- Josef Šlerka (@josefslerka) – Google Fusion Tables (slidy)
- Štefan Urbánek (@Stiivi) – workshop o čištění dat (slidy)
Pořadatelé
Národní technická knihovna (Jindřich Mynarz, jindrich.mynarz(at)techlib.cz, @jindrichmynarz)
Studia nových médií FF UK (Josef Šlerka, josef.slerka(at)gmail.cz, @josefslerka)
Workshop sponzoruje
Česká informační společnost, o.s.




Milý BigCleane, jak zjistím, jestli jsem se vešel do 50 volných míst? Mohu předpokládat, že když mi prošla registrace, tak jsem vyhrál? Díky
Jakmile bude kapacita naplněná, objeví se to na této stránce.
Budou z workshopu nějaké záznamy a materiály dostupné online? Prosím o zaslání reakce na můj e-mail.
Video záznamy neplánujeme, protože půjde spíše o workshop než klasické přednášky. Pro některé části budou k dispozici sdílené Google Docs s výstupy např. z diskusí.
Zdravim, v programu jsou dva bloky v jeden cas. Znamena to, ze bude na vyber? Veci co mne zajimaji se nekdy prekryvaji
Diky
Ano, dopoledne i odpoledne budou dva paralelní bloky, jak je zde uvedeno.
Odpoledni hackovani bude rozsireni dopoledniho cisteni dat? Nebo to bude to same znovu?
Odpolední hackování bude praktickou realizací a pokračováním dopoledního programu o scrapovaní a čištění dat.
Super, diky. Uz mam jasno.
Technicka pripominka, opravdu jen pro jistotu: Nespolehat na wifi NTK (pro navstevniky knihovny), porad se odhlasuje a chce stale znovu zadavat autentizacni udaje… (ale treba se to uz zlepsilo, dlouho jsem tu wifi nepouzival)…
Dobrý den, s wifi jsou problémy stále. Spočívají hlavně v kombinaci různých karet, firmwarů a logiky sítě. Často pomůže zaktualizovat ovladače WiFi, případně zakázat v ovladačích roaming. V některých kombinacích si zařízení vyjednají roaming na jiné AP a pak se místo přepnutí odpojí. Jinak v Ballingově sále byla cca před půl rokem rozšířena infrastruktura na 4 AP, z nichž dva jedou na ABGN. Wifi je duchařina, a čert nám jí byl dlužen
.
Zdravim, takze jak je to s konektivitou? Je zajistena?
Pro účastníky bude k dispozici wi-fi připojení (SSID: NTK-Guest).
[...] the announcement in english Lauantaina 19.3. 2011, klo 12 alkaen (sisartapahtuma Prahassa alkaa tuntia aikaisemmin) Jyväskylä, Hub Jyväskylän tilat, Hannikaisenkatu 18 (Matkakeskuksen vieressä) Tapahtuman [...]
Web sesterské události ve finské Jyväskylä najdete na: http://hubjkl.wordpress.com/2011/03/14/big-clean-screen-scraping-paiva-19-3-2011/
Registroval jsem se minulý týden, ale na mail mi nedošlo žádné potvrzení. Doufám, že je vše v pohodě, nerad bych zjistil, že je plno a nejsem na seznamu…
Kapacita workshopu se rozšířila na 200 míst, takže už není třeba se obávat, že by se někdo nevešel. Vaši registraci jsme v pořádku dostali.
“registrace” spociva v pouziti linku “Register” v pravem menu zde na webu bigclean nebo uz je workshop plny a kyzeny registracni formular uz zmizel? Diky za odpoved.
Registrace je stále otevřená pod odkazem “Zaregistrujte se”.