Seznam odkazů hygienických stanic pro účely scrapování webu

Jihočeský kraj

Urlhttps://www.khscb.cz/
DOM#panel_obsah .cla-text table table
Query selector (javascript)document.querySelectorAll("#panel_obsah .cla-text table table")[2]
Ukázka
Co scrapovat
  1. jednotlivé řádky tabulky

Jihomoravský kraj

Obtížné ke scrapování, data jsou v pdf

Urlhttp://www.khsbrno.cz/admin/upload/aktuality/?C=M;O=D

Karlovarský kraj

Obtížné ke scrapování, data jsou v pdf

Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)

Urlhttp://www.khskv.cz/Koronavir_COVID/Pocet_testovanych_osob_na_COVID19_Karlovarsky_kraj.pdf

Kraj Vysočina

Urlhttp://www.khsjih.cz/covid-19.php
DOMtable.tabulka_covid
Query selector (javascript)document.querySelector("table.tabulka_covid")
Ukázka
Co scrapovat
  1. jednotlivé řádky tabulky

Královéhradecký kraj

Urlhttp://www.khshk.cz/news.php
DOMtable
Query selector (javascript)document.querySelector("table")
Ukázka
Co scrapovat
  1. jednotlivé řádky tabulky, bohužel nejsou to tabulární data, ale jako paragrafy <p>

Liberecký kraj

Urlhttps://www.khslbc.cz/khs_informace_covid-19/
DOMtable:not(#wp-calendar)
Query selector (javascript)document.querySelector("table:not(#wp-calendar)")
Ukázka
Co scrapovat
  1. jednotlivé řádky tabulky

Moravskoslezský kraj

Nepůjde scrapovat. Data jsou obrázky png.

Urlhttp://www.khsova.cz/homepage/korona-statistika

Olomoucký kraj

Urlhttp://www.khsolc.cz/info_verejnost.aspx
DOMtable table
Query selector (javascript)document.querySelector("table table").innerHTML
Ukázka
Co scrapovat
  1. jednotlivé řádky tabulky

Pardubický kraj

Pouze text, nejsou dostupná tabulární data, obtížné ke scrapování (náchylné na překlep).

Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)

Urlhttps://www.khspce.cz/aktualni-situace-ve-vyskytu-koronaviru-v-pardubickem-kraji-2/

Plzeňský kraj

Data o okresech

Nepůjde scrapovat data o jednotlivých okresech. Data jsou obrázky jpg.

Url obrázkuhttp://www.khsplzen.cz/images/KHS/covid19/Plzensky_kraj.jpg

Celková data

Pozor, neobsahují data o okresech, pouze celková data a datum poslední aktualizace.

Ověřit, odkud se berou data-sheets-value, může být v rámci nějaké api.

Urlhttp://www.khsplzen.cz/odbory/odbor-epi/1928-aktualni-udaje-z-plzenskeho-kraje-sars-cov-2.html
DOMtable table
Query selector (javascript)document.querySelector("table table").innerHTML
Ukázka
Co scrapovat
  1. data-sheets-value obsahují jednotlivé údaje, respektive jejich provázanost mezi sebou.

Praha

Urlhttp://www.hygpraha.cz/obsah/koronavirus_506_1.html
DOMdiv.content div.vypis-item h3
Query selector (javascript)document.querySelectorAll(".content .vypis-item h3")[index].innerText
Ukázka"V Praze 552 případů pozitivních případů onemocnění Covid-19-●situace k 26.3.2020;18:00 hodin"
Co scrapovat
  1. innerText
  2. opakuje se "●situace k 26.3.2020;18:00 hodin" (přesněji začíná situace k a končí hodin)
  3. vyjmout tuto část, parse jako datum
  4. odstranit vše co nejsou čísla (odstranit všechen text a mezery) a parseInt
  5. pokud bude parseInt i v tuto chvíli undefined, tak se nejedná o článek ke koronaviru případně změnili schéma dat

Středočeský kraj

Obtížné ke scrapování, v textové formě jsou dostupná pouze celková data, nikoliv údaje o krajích. Zbytek je pouze ve formě obrázku

Urlhttp://www.khsstc.cz/dokumenty/aktualni-situace-ve-vyskytu-koronaviru-ve-stredoceskem-kraji-5723_5723_161_1.html
Url obrázkuhttp://www.khsstc.cz/Admin/_upload/images/1/COVID%2027_3.jpg

Ústecký kraj

Obtížné ke scrapování, data jsou v pdf

Urlhttp://www.khsusti.cz/php/kousky/covid19/pocet_testovanych_osob_na_covid19_ustecky_kraj.pdf

Zlínský kraj

Obtížné ke scrapování, data jsou v pdf

Urlhttp://www.khszlin.cz/
DOM#news-holder .grid-container .grid-50.tablet-grid-50 p
Query selector (javascript)document.querySelectorAll("#news-holder .grid-container .grid-50.tablet-grid-50 p")
Ukázka"26.3.2020 - Informace o výskytu koronaviru ve Zlínském kraji - 9:00 hod."
Co scrapovat
  1. Je třeba projít všechny odstavce uvnitř #news-holder .grid-container .grid-50.tablet-grid-50
  2. opakuje se " - Informace o výskytu koronaviru ve Zlínském kraji - "
  3. vyjmout tuto část a parse jako datum
  4. odkaz tohoto elementu vede na pdf, to bude třeba scrapnout anebo manuálně přepsat
Zpátky na informace o COVID-19