Seznam odkazů hygienických stanic pro účely scrapování webu
Jihočeský kraj
Url | https://www.khscb.cz/ |
---|
DOM | #panel_obsah .cla-text table table |
---|
Query selector (javascript) | document.querySelectorAll("#panel_obsah .cla-text table table")[2] |
---|
Ukázka | |
---|
Co scrapovat | - jednotlivé řádky tabulky
|
---|
Jihomoravský kraj
Obtížné ke scrapování, data jsou v pdf
Karlovarský kraj
Obtížné ke scrapování, data jsou v pdf
Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)
Kraj Vysočina
Url | http://www.khsjih.cz/covid-19.php |
---|
DOM | table.tabulka_covid |
---|
Query selector (javascript) | document.querySelector("table.tabulka_covid") |
---|
Ukázka | |
---|
Co scrapovat | - jednotlivé řádky tabulky
|
---|
Královéhradecký kraj
Url | http://www.khshk.cz/news.php |
---|
DOM | table |
---|
Query selector (javascript) | document.querySelector("table") |
---|
Ukázka | |
---|
Co scrapovat | - jednotlivé řádky tabulky, bohužel nejsou to tabulární data, ale jako paragrafy
<p>
|
---|
Liberecký kraj
Moravskoslezský kraj
Nepůjde scrapovat. Data jsou obrázky png.
Olomoucký kraj
Pardubický kraj
Pouze text, nejsou dostupná tabulární data, obtížné ke scrapování (náchylné na překlep).
Je třeba otestovat, jestli se adresa souboru mění (zatím vypadá, že ne.)
Plzeňský kraj
Data o okresech
Nepůjde scrapovat data o jednotlivých okresech. Data jsou obrázky jpg.
Celková data
Pozor, neobsahují data o okresech, pouze celková data a datum poslední aktualizace.
Ověřit, odkud se berou data-sheets-value, může být v rámci nějaké api.
Praha
Url | http://www.hygpraha.cz/obsah/koronavirus_506_1.html |
---|
DOM | div.content div.vypis-item h3 |
---|
Query selector (javascript) | document.querySelectorAll(".content .vypis-item h3")[index].innerText |
---|
Ukázka | "V Praze 552 případů pozitivních případů onemocnění Covid-19-●situace k 26.3.2020;18:00 hodin" |
---|
Co scrapovat | innerText - opakuje se "●situace k 26.3.2020;18:00 hodin" (přesněji začíná situace k a končí hodin)
- vyjmout tuto část, parse jako datum
- odstranit vše co nejsou čísla (odstranit všechen text a mezery) a parseInt
- pokud bude parseInt i v tuto chvíli undefined, tak se nejedná o článek ke koronaviru případně změnili schéma dat
|
---|
Středočeský kraj
Obtížné ke scrapování, v textové formě jsou dostupná pouze celková data, nikoliv údaje o krajích. Zbytek je pouze ve formě obrázku
Ústecký kraj
Obtížné ke scrapování, data jsou v pdf
Zlínský kraj
Obtížné ke scrapování, data jsou v pdf
Url | http://www.khszlin.cz/ |
---|
DOM | #news-holder .grid-container .grid-50.tablet-grid-50 p |
---|
Query selector (javascript) | document.querySelectorAll("#news-holder .grid-container .grid-50.tablet-grid-50 p") |
---|
Ukázka | "26.3.2020 - Informace o výskytu koronaviru ve Zlínském kraji - 9:00 hod." |
---|
Co scrapovat | - Je třeba projít všechny odstavce uvnitř
#news-holder .grid-container .grid-50.tablet-grid-50 - opakuje se " - Informace o výskytu koronaviru ve Zlínském kraji - "
- vyjmout tuto část a parse jako datum
- odkaz tohoto elementu vede na pdf, to bude třeba scrapnout anebo manuálně přepsat
|
---|