Seznam odkazů hygienických stanic pro účely scrapování webu

Jihočeský kraj

Url	https://www.khscb.cz/
DOM	`#panel_obsah .cla-text table table`
Query selector (javascript)	`document.querySelectorAll("#panel_obsah .cla-text table table")[2]`
Ukázka	<tbody> <tr> <td colspan="3"><b>Údaje k 26. 3. 2020</b></td> </tr> <tr> <td width="10"> </td> <td>Počet potvrzených případů v kraji</td> <td style="text-align:right">58</td> </tr> <tr> <td width="10"></td> <td>Počet osob indikovaných k testování</td> <td style="text-align:right">2550</td> </tr> <tr> <td width="10"></td> <td>Počet dnes testovaných vzorků</td> <td style="text-align:right">323</td> </tr> <tr> <td colspan="3">Pozitivní případy v regionu po okresech</td> </tr> <tr> <td width="10"> </td> <td>Českobudějovicko</td> <td style="text-align:right">13</td> </tr> <tr> <td width="10"> </td> <td>Českokrumlovsko</td> <td style="text-align:right">14</td> </tr> <tr> <td width="10"> </td> <td>Jindřichohradecko</td> <td style="text-align:right">0</td> </tr> <tr> <td width="10"> </td> <td>Písecko</td> <td style="text-align:right">2</td> </tr> <tr> <td width="10"> </td> <td>Prachaticko</td> <td style="text-align:right">10</td> </tr> <tr> <td width="10"> </td> <td>Strakonicko</td> <td style="text-align:right">16</td> </tr> <tr> <td width="10"> </td> <td>Táborsko</td> <td style="text-align:right">3</td> </tr> </tbody>
Co scrapovat	jednotlivé řádky tabulky

Jihomoravský kraj

Obtížné ke scrapování, data jsou v pdf

Url	http://www.khsbrno.cz/admin/upload/aktuality/?C=M;O=D

Karlovarský kraj

Obtížné ke scrapování, data jsou v pdf

Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)

Url	http://www.khskv.cz/Koronavir_COVID/Pocet_testovanych_osob_na_COVID19_Karlovarsky_kraj.pdf

Kraj Vysočina

Url	http://www.khsjih.cz/covid-19.php
DOM	`table.tabulka_covid`
Query selector (javascript)	`document.querySelector("table.tabulka_covid")`
Ukázka	<tbody> <tr class="linka_nahore"> <td class="tucne">Celkový počet osob s prokázanou nákazou:</td> <td class="tucne">45</td> </tr> <tr> <td>z toho v okrese Jihlava:</td> <td>8</td> </tr> <tr> <td>z toho v okrese Havlíčkův Brod:</td> <td>18</td> </tr> <tr> <td>z toho v okrese Pelhřimov:</td> <td>0</td> </tr> <tr> <td>z toho v okrese Třebíč:</td> <td>10</td> </tr> <tr class="linka_dole"> <td>z toho v okrese Žďár nad Sázavou:</td> <td>9</td> </tr> <tr class="linka_nahore"> <td class="tucne">Celkový počet platných karantén vydaných KHS:</td> <td class="tucne">0</td> </tr> <tr class="linka_nahore"> <td class="tucne">Celkový počet osob indikovaných KHS k testování: <br><span class="normalni pismo_0_9">(stav od 22.3.2020 18:00)</span></td> <td class="tucne">276</td> </tr> <tr class="linka_nahore linka_dole"> <td class="tucne">Počet osob indikovaných KHS k testování za posledních 24 hodin: <br><span class="normalni pismo_0_9">(stav k 18:00)</span></td> <td class="tucne">136</td> </tr> </tbody>
Co scrapovat	jednotlivé řádky tabulky

Královéhradecký kraj

Url	http://www.khshk.cz/news.php
DOM	`table`
Query selector (javascript)	`document.querySelector("table")`
Ukázka	<p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:ormal"><strong><span style="font-family:Verdana,sans-serif;font-size:12pt">Královéhradecký kraj - COVID-19</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:right;line-height:normal" align="right"><strong><span style="font-family:Verdana,sans-serif;font-size:12pt">Situace k 27.3.2020, 11:00 hodin</span></strong></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Okres</span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">CELKOVÝ POČET</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Kraj</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Hr.Králové</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Jičín</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Náchod</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Rychnov n/K</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">Trutnov</span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">osob s prokázanou nákazou</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">46</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">22</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">3</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">14</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">2</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif"><span style="font-size:12px"><strong>5</strong></span></span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">platných karantén vydaných z rozhodnutí KHS</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif"><span style="font-size:12px">3</span></span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">osob indikovaných KHS k testování</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">260</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt"> </span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;line-height:normal"><strong><span style="font-family:Verdana,sans-serif;font-size:9pt">osob indikovaných KHS k testování za posledních 24 hodin</span></strong></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">24</span></p> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><span style="font-family:Verdana,sans-serif;font-size:9pt">aktualizováno 1x denně (vždy v odpoledních hodinách)</span></p> <!-- [endif]--> <p class="MsoNormal" style="margin-bottom:0;margin-bottom:.0001pt;text-align:center;line-height:normal" align="center"><strong><span style="color:#00b0f0;font-family:"">S ohledem na platné právní předpisy v oblasti ochrany osobních údajů není možné sdělovat žádné další bližší podrobnosti.</span></strong></p> <!-- [endif]--> <!-- [endif]-->
Co scrapovat	jednotlivé řádky tabulky, bohužel nejsou to tabulární data, ale jako paragrafy `<p>`

Liberecký kraj

Url	https://www.khslbc.cz/khs_informace_covid-19/
DOM	`table:not(#wp-calendar)`
Query selector (javascript)	`document.querySelector("table:not(#wp-calendar)")`
Ukázka	<caption> </caption> <tbody> <tr style="background-color:#fff"> <td style="width:87.1632%;height:26px"><span style="font-size:12pt">celkový počet případů v Libereckém kraji</span></td> <td style="width:7683.15%;height:26px"><span style="font-size:14pt"><strong>46</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:30px"><span style="font-size:12pt">celkový počet indikovaných osob k vyšetření v LK</span></td> <td style="width:7683.15%;height:30px"><span style="font-size:14pt"><strong>692</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:27px"><span style="font-size:12pt">počet osob v karanténě z rozhodnutí KHS LK </span></td> <td style="width:7683.15%;height:27px"><span style="font-size:14pt"><strong>23</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:26px"><span style="font-size:12pt">počet případů v okrese Česká Lípa</span></td> <td style="width:7683.15%;height:26px"><span style="font-size:14pt"><strong>2</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:26px"><span style="font-size:12pt">počet případů v okrese Jablonec nad Nisou</span></td> <td style="width:7683.15%;height:26px"><span style="font-size:14pt"><strong>13</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:26px"><span style="font-size:12pt">počet případů v okrese Liberec</span></td> <td style="width:7683.15%;height:26px"><span style="font-size:14pt"><strong>21</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:26px"><span style="font-size:12pt">počet případů v okrese Semily</span></td> <td style="width:7683.15%;height:26px"><span style="font-size:14pt"><strong>10</strong></span></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:27px"><a href="https://www.khslbc.cz/wp-content/uploads/COVID-vekoveskupiny-27-3-20_ve-13.pdf" class="mtli_attachment mtli_pdf">Onemocnění COVID-19 v LK dle věkových skupin</a></td> <td style="width:7683.15%;height:27px"></td> </tr> <tr> <td style="width:87.1632%"><a href="https://www.khslbc.cz/wp-content/uploads/COVID-misto_nakazy_27-3-20_ve13.pdf" class="mtli_attachment mtli_pdf">Onemocnění COVID-19 v LK dle místa nákazy</a></td> <td style="width:7683.15%"></td> </tr> <tr> <td style="width:87.1632%"><a href="https://www.khslbc.cz/wp-content/uploads/COVID-misto_indikovane-osoby_26-3-20.pdf" class="mtli_attachment mtli_pdf">Počet osob indikovaných k odběru v LK</a></td> <td style="width:7683.15%"></td> </tr> <tr style="background-color:#fff"> <td style="width:87.1632%;height:22px"><span style="font-size:10pt">aktualizace 27.3.2020 ve 13:00<br> </span></td> <td style="width:7683.15%;height:22px"></td> </tr> </tbody>
Co scrapovat	jednotlivé řádky tabulky

Moravskoslezský kraj

Nepůjde scrapovat. Data jsou obrázky png.

Url	http://www.khsova.cz/homepage/korona-statistika

Olomoucký kraj

Url	http://www.khsolc.cz/info_verejnost.aspx
DOM	`table table`
Query selector (javascript)	`document.querySelector("table table").innerHTML`
Ukázka	<caption><b>Nákaza COVID-19 v Olomouckém kraji ke dni 27.3.2020 8:00 </b></caption> <tbody> <tr> <td colspan="2">Celkový počet potvrzených případů</td> <td align="right">172</td> </tr> <tr> <td>Celkový počet potvrzených případů v jednotlivých okresech</td> <td> </td> <td> </td> </tr> <tr> <td> </td> <td>Okres Olomouc</td> <td align="right">137</td> </tr> <tr> <td> </td> <td>Okres Prostějov</td> <td align="right">25</td> </tr> <tr> <td> </td> <td>Okres Přerov</td> <td align="right">5</td> </tr> <tr> <td> </td> <td>Okres Šumperk</td> <td align="right">4</td> </tr> <tr> <td> </td> <td>Okres Jeseník</td> <td align="right">1</td> </tr> <tr> <td>Celkový počet potvrzených případů dle pohlaví</td> <td> </td> <td> </td> </tr> <tr> <td> </td> <td>muži</td> <td align="right">97</td> </tr> <tr> <td> </td> <td>ženy</td> <td align="right">75</td> </tr> <tr> <td>Celkový počet vyléčených osob</td> <td> </td> <td align="right">2</td> </tr> <tr> <td>Celkový počet osob indikovaných KHS k testování</td> <td> </td> <td align="right">1265</td> </tr> <tr> <td>Celkový počet platných karantén</td> <td> </td> <td align="right">649</td> </tr> <tr> <td colspan="3"><span style="font-size:11pt;font-family:Calibri,sans-serif"><a href="https://onemocneni-aktualne.mzcr.cz/covid-19">https://onemocneni-aktualne.mzcr.cz/covid-19</a></span> </td> </tr> <tr> <td colspan="3"><span style="font-size:11pt;font-family:Calibri,sans-serif"><span style="font-size:10pt;font-family:Calibri,sans-serif;background:#fff;color:#000">S ohledem na platné právní předpisy v oblasti ochrany osobních údajů není možné sdělovat žádné další bližší podrobnosti.</span></span> </td> </tr> </tbody>
Co scrapovat	jednotlivé řádky tabulky

Pardubický kraj

Pouze text, nejsou dostupná tabulární data, obtížné ke scrapování (náchylné na překlep).

Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)

Url	https://www.khspce.cz/aktualni-situace-ve-vyskytu-koronaviru-v-pardubickem-kraji-2/

Plzeňský kraj

Data o okresech

Nepůjde scrapovat data o jednotlivých okresech. Data jsou obrázky jpg.

Url obrázku	http://www.khsplzen.cz/images/KHS/covid19/Plzensky_kraj.jpg

Celková data

Pozor, neobsahují data o okresech, pouze celková data a datum poslední aktualizace.

Ověřit, odkud se berou data-sheets-value, může být v rámci nějaké api.

Url	http://www.khsplzen.cz/odbory/odbor-epi/1928-aktualni-udaje-z-plzenskeho-kraje-sars-cov-2.html
DOM	`table table`
Query selector (javascript)	`document.querySelector("table table").innerHTML`
Ukázka	<tbody> <tr> <td align="center" data-sheets-value="{"1":2,"2":"Počet vyšetření na SARS-CoV-2 "}">Počet vyšetření na SARS-CoV-2</td> <td align="center" data-sheets-value="{"1":2,"2":"Z toho pozitivní"}"> Z toho pozitivní </td> <td align="center" data-sheets-value="{"1":2,"2":"Počet zemřelých"}">Počet zemřelých</td> <td align="center" data-sheets-value="{"1":2,"2":"Počet vystavených karantén"}">Počet vystavených karantén KHS</td> <td align="center" data-sheets-value="{"1":2,"2":"Počet ukončených karantén"}">Počet ukončených karantén</td> </tr> <tr> <td align="center" data-sheets-value="{"1":3,"3":34}"><strong>1658</strong></td> <td align="center" data-sheets-value="{"1":3,"3":83}"><strong>57</strong></td> <td align="center" data-sheets-value="{"1":3,"3":83}"><strong>0</strong></td> <td align="center" data-sheets-value="{"1":3,"3":25}"><strong>411</strong></td> <td align="center" data-sheets-value="{"1":3,"3":25}"><strong>292</strong></td> </tr> </tbody>
Co scrapovat	`data-sheets-value` obsahují jednotlivé údaje, respektive jejich provázanost mezi sebou.

Praha

Url	http://www.hygpraha.cz/obsah/koronavirus_506_1.html
DOM	`div.content div.vypis-item h3`
Query selector (javascript)	`document.querySelectorAll(".content .vypis-item h3")[index].innerText`
Ukázka	`"V Praze 552 případů pozitivních případů onemocnění Covid-19-●situace k 26.3.2020;18:00 hodin"`
Co scrapovat	`innerText` opakuje se "●situace k 26.3.2020;18:00 hodin" (přesněji začíná situace k a končí hodin) vyjmout tuto část, parse jako datum odstranit vše co nejsou čísla (odstranit všechen text a mezery) a parseInt pokud bude parseInt i v tuto chvíli undefined, tak se nejedná o článek ke koronaviru případně změnili schéma dat

Středočeský kraj

Obtížné ke scrapování, v textové formě jsou dostupná pouze celková data, nikoliv údaje o krajích. Zbytek je pouze ve formě obrázku

Url	http://www.khsstc.cz/dokumenty/aktualni-situace-ve-vyskytu-koronaviru-ve-stredoceskem-kraji-5723_5723_161_1.html
Url obrázku	http://www.khsstc.cz/Admin/_upload/images/1/COVID%2027_3.jpg

Ústecký kraj

Obtížné ke scrapování, data jsou v pdf

Url	http://www.khsusti.cz/php/kousky/covid19/pocet_testovanych_osob_na_covid19_ustecky_kraj.pdf

Zlínský kraj

Obtížné ke scrapování, data jsou v pdf

Url	http://www.khszlin.cz/
DOM	`#news-holder .grid-container .grid-50.tablet-grid-50 p`
Query selector (javascript)	`document.querySelectorAll("#news-holder .grid-container .grid-50.tablet-grid-50 p")`
Ukázka	`"26.3.2020 - Informace o výskytu koronaviru ve Zlínském kraji - 9:00 hod."`
Co scrapovat	Je třeba projít všechny odstavce uvnitř `#news-holder .grid-container .grid-50.tablet-grid-50` opakuje se " - Informace o výskytu koronaviru ve Zlínském kraji - " vyjmout tuto část a parse jako datum odkaz tohoto elementu vede na pdf, to bude třeba scrapnout anebo manuálně přepsat