čtvrtek 6. února 2020

Závěrečný úkol - Nástroje a metody datové analytiky

Pro svůj závěrečný projekt do předmětu ISKM55 Nástroje a metody datové analytiky jsem si vybrala dataset, který můžeme najít v Katalogu otevřených dat Brno zde. Tento dataset obsahuje seznam všech dopravních nehod, které se staly v roce 2018 na území Jihomoravského kraje.

Cíl projektu

Našim hlavním cílem bude zjistit, jak nejčastěji vypadá dopravní nehoda v Jihomoravském kraji. V následujících podotázkách na vybraných grafech si představíme podrobnější aspekty o dopravních nehodách a závěr se pokusím co nejpřesněji odpovědět na stěžejní otázku.

Příprava datasetu

Nejprve jsem si celý dataset označila a naformátovala ho jako tabulku. Dále jsem ukotvila první řádek tabulky, aby se mi s ní lépe pracovalo. V tabulce jsem také seřadila ve sloupci Datum nehody od nejstaršího po nejnovější, aby byla celá práce s tabulkou přehlednější. Na závěr jsem ještě sjednotila sloupce a celý dataset vyčistila od prázdných a přebytečných řádků.



Vytvoření grafů

Původně jsem chtěla vytvořit grafy a vizualizovat data pomocí nástroje Power BI, ale bohužel se mi tento program z nějakého důvodu odmítal spustit na mém počítači, proto mi nezbylo nic jiného, než vytvořit všechny grafy v Excelu. Vytvořila jsem grafy, které mi pomohly odpovědět na položené podotázky.

Otázky

  • V jakých měsících se stává nejvíce dopravních nehod v Jihomoravském kraji?
Nejvíce dopravních nehod se v roce 2018 stalo v říjnu. Na druhém místě je srpen a na třetím místě s drobným odstupem květen. Avšak jak je očividné, rozdíly v měsících nejsou příliš markantní.
  • Na které dny v týdnu připadá nejvíce dopravních nehod?


Dopravní nehody se stávají nejčastěji v pátek a poté v pondělí. Rozdíly zde opět nejsou příliš velké, avšak je tu patrný větší pokles o víkendech.
  • Stávají se dopravní nehody více ve dne nebo v noci?

Zde je výsledek očividný. Pravděpodobnost, že se staneme svědkem dopravní nehody je ve dne mnohem výraznější než v noci.
  • Jaký druh dopravních nehod se stává nejčastěji?

Mezi dopravními nehodami jednoznačně převládají srážky vozidla s jiným vozidlem.
  • Jak často mají vliv na dopravní nehodu požití návykových látek?

Během dopravních nehod jsou jejich účastníci nejčastěji střízliví bez požití návykových látek,  avšak u velké části dopravních nehod se vliv návykových látek nezjišťoval.
  • Jaké jsou nejčastější příčiny ke vzniku dopravních nehod?

Z grafu vyplývá, že za většinu dopravních nehod je zodpovědný přímo řidič svojí špatnou jízdou.
  • Jak často má vliv počasí na vznik dopravní nehody?

Počasí může mít samozřejmě vliv na vznik dopravní nehody, ale neděje se tak příliš často, většina nehod se stane za neztíženého provozu.
  • Jaké jsou nejčastější důvody ke vzniku dopravní nehody?
Ve velké většině případů zaviní dopravní nehodu řidič, jiné příčiny bývají minimální.

Závěr

Na začátku jsem si položila hlavní otázku, jak nejčastěji vypadala dopravní nehoda v Jihomoravském kraji v roce 2018. Z výše uvedených grafů a informací vyplývá, že nezáleží příliš na ročním období. Avšak mnohem více nehod se stává ve všední, pracovní dny během dne tak, že dojde ke srážce dvou vozidel. Hlavní vina spočívá jednoznačně na samotném řidiči z důvodu špatného způsobu jízdy. Nehod z důvodu špatného počasí nebo pod vlivem návykových látek je výrazně méně.

středa 4. prosince 2019

Vizualizace v Power BI

Zadání úkolu zní:

Chci jednoduchý dashboard užívaný kvartálně, kde pro každou kategorii uvidím největší změny profitu výrobců za poslední 3 roky. Chci možnost filtrovat i přes kontinent. Poté se chci více zaměřit na daného výrobce. Rád bych věděl statistiky přes třídu a top 10 výrobků daného výrobce. Pro ty bych chtěl vidět jejich profit trend.

Zadání úkolu tedy známe, proto si nejdříve otevřeme Power BI a ujistíme se, zda máme všechny potřebné nástroje. V první části zadání se zaměříme na vytvoření grafu, který nám bude ukazovat celkový zisk za poslední 3 roky. Pro zobrazení grafu jsem si vybrala skupinový, pruhový graf, ve kterém si zobrazíme osu Date, legendu Manufacturer a hodnotu Total Profit. K tomu ještě přidáme 2 filtry pro kategorie produktu a continent. V těchto filtrech můžeme pak libovolně překlikávat, abychom si mohli zobrazit konkrétně ty údaje, které potřebujeme.

Zde níže je screenshot, jak to pak vypadá.




Pro druhou část zadání vytvoříme graf, který nám bude zobrazovat prvních top 10 produktů, které přinešly největší zisky. Pro tento účel jsem opět použila skupinový pruhový graf. Jako Osu si znova vybereme hodnotu Date a do hodnoty dáme Total Profit. Přidáme pak opět 2 filtry pro Manufacturer a Class. Na stejné stránce si zobrazíme ještě i skládaný plošný graf, díky kterému můžeme pomocí filtrů různě překlikávat mezi Class a Manufacturer. Můžeme si tedy zobrazit to co zrovna potřebujeme.



pondělí 7. října 2019

Nástroje a metody datové analytiky - 2. úkol


1. část

Seznam televizí na Heureka.cz


Pomocí rozšíření na Chromu XPathHelper jsem označila seznam televizí na heurece.



Pak už jsem importovala data do Google Sheets a postupně vytvořila tabulku s názvy televizí, cenovým rozpětím a hodnocením televizí.

Import jsem provedla pomocí kódu: 
=IMPORTXML("https://televize.heureka.cz/";"//div[@class='p']//h2/a|//div[@class='p last']//h2/a")

Stejnou cestou jsem vytvořila i cenové rozpětí:
 =IMPORTXML("https://televize.heureka.cz";"//div[@class='p']//p[@class='price']|//div[@class='p last']//p[@class='price']")

a i hodnocení: =IMPORTXML("https://televize.heureka.cz/";"//div[@class='p'][*]//p[@class='rw'] | //div[@class='p last'][*]//p[@class='rw']")


Výsledná tabulka


2. část

Analýza textu


Vyzkoušela jsem nástroj Geneea Text Analysis. Vložila jsem pro zajímavost krátký článek z Novinky.cz. Domnívám se, že se jedná o užitečný nástroj a to především v případě, když potřebujeme najít v textu klíčová slova. 



3. část

RegexOne


Prošla jsem si tutorial na regexone.com.




neděle 6. října 2019

Nástroje a metody datové analytiky - 1.úkol

Zpracování prvního úkolu do předmětu Nástroje a metody datové analytiky:

1. část

Rozvrh v CSV formátu

Nejprve jsem napsala tabulku v Sublime Text programu.




Po uložení souboru jsem otevřela tabulku v Excelu. Tabulka však nevypadá dobře, proto jsem změnila Původ souboru na Unicode (UTF-8)




Takto vypadá výsledná hezká tabulka.




2. část

GPX - Cesta ze školy

Nejprve jsem vytvořila trasu z Arne Nováka na brněnské hlavní nádraží. Poté jsem trasu exportovala do formátu GPX a pomocí nástroje GPS Visualiser jsem provedla vizualizaci.



3. část

Komunikace IRIS a serveru

Server posílá informace o každém vozidle a obsahují údaje o typu vozidla, ID číslo, souřadnice atd. Tyto informace jsou ve formátu JSON.

4. část

API


Nejprve jsem se zaregistrovala na webu BreweryDB.com a získala svůj potřebný API klíč.

Zadala jsem příkaz GET a dostala seznam všech pivovarů:


Pak jsem dostala ještě seznam kategorií piva: