Data science v prostředí Apache Spark

DSpace Repository

Language: English čeština 

Data science v prostředí Apache Spark

Show simple item record

dc.contributor.advisor Šenkeřík, Roman
dc.contributor.author Hanzlík, Roman
dc.date.accessioned 2021-10-04T11:58:52Z
dc.date.available 2021-10-04T11:58:52Z
dc.date.issued 2021-01-15
dc.identifier Elektronický archiv Knihovny UTB
dc.identifier.uri http://hdl.handle.net/10563/49953
dc.description.abstract Tato diplomová práce představuje téma Data Science jako nový fenomén v oblasti počítačového zpracování dat. Hlavním cílem této práce je poskytnout prvotní náhled do problematiky Data Science a v krátkosti představit její dílčí oblasti se zaměřením na Big Data a Machine Learning jako dva pilíře, které hrají v posledních letech primární úlohu v rychle se měnící době, zejména v oblasti informačních technologií, což je odvětví, které zásadním způsobem zasahuje snad už do všech oblastí lidské činnosti. Teoretická část nejprve podává přehled historie zpracování dat a informací a představuje faktory, které vedly k potřebě nového přístupu ve zpracování dat. Značná část je věnována představení metodik v oblasti zpracování dat. Neodmyslitelnou součástí je samotná definice Data Science a jejich základních komponent, Big Data včetně datového inženýrství a přehled možností a typů analýz dat. Praktická část popisuje základní koncepty Apache Spark vč. několika možností instalací jako jsou on-premise či in-cloud. Dále se zaměřuje na představení možnosti Apache Spark v rámci jeho základních komponent přímo na reálných případech použití s využitím některých veřejně dostupných datových sad. Součástí práce je sada ukázkových příkladů s funkčními řádky kódů, které demonstrují využití dané technologie.
dc.format 145 s. (233 617 znaků)
dc.language.iso cs
dc.publisher Univerzita Tomáše Bati ve Zlíně
dc.rights Bez omezení
dc.subject Data cs
dc.subject Data Science cs
dc.subject Data Engineering cs
dc.subject Big Data cs
dc.subject Machine Learning cs
dc.subject Data Mining cs
dc.subject Matematika cs
dc.subject Statistika cs
dc.subject Analýza cs
dc.subject DLM cs
dc.subject CRISP-DM cs
dc.subject DSMM cs
dc.subject Apache Spark cs
dc.subject Data en
dc.subject Data Science en
dc.subject Data Engineering en
dc.subject Big Data en
dc.subject Machine Learning en
dc.subject Data Mining en
dc.subject Mathematics en
dc.subject Statistics en
dc.subject Analytics en
dc.subject Analysis en
dc.subject DLM en
dc.subject CRISP-DM en
dc.subject DSMM en
dc.subject Apache Spark en
dc.title Data science v prostředí Apache Spark
dc.title.alternative Towards Data Science in Apache Spark
dc.type diplomová práce cs
dc.date.accepted 2021-09-06
dc.description.abstract-translated This master thesis introduces the topic of Data Science as a new phenomenon in the field of computer data processing. The main objective of this thesis is to provide an initial insight into the area of Data Science and to briefly introduce its sub-areas, focusing on Big Data and Machine Learning as two pillars that have played a primary role in recent years in a rapidly changing era, especially in the field of information technology, an industry that has already fundamentally affected perhaps all areas of human activity. The theoretical part first gives an overview of the history of data and information processing and presents the factors that led to the need for a new approach in data processing. A significant part is devoted to introducing methodologies in data processing. An essential part is the actual definition of Data Science and its basic components, Big Data including data engineering and a review of the possibilities and types of data analysis. The practical part describes the basic concepts of Apache Spark including several installation options such as on-premise or in-cloud. It also focuses on presenting the capabilities of Apache Spark within its core components directly on real use cases using some of the publicly available datasets. This paper includes a set of sample examples with working lines of code that demonstrate the use of the technology.
dc.description.department Ústav informatiky a umělé inteligence
dc.thesis.degree-discipline Informační technologie cs
dc.thesis.degree-discipline Information Technologies en
dc.thesis.degree-grantor Univerzita Tomáše Bati ve Zlíně. Fakulta aplikované informatiky cs
dc.thesis.degree-grantor Tomas Bata University in Zlín. Faculty of Applied Informatics en
dc.thesis.degree-name Ing.
dc.thesis.degree-program Inženýrská informatika cs
dc.thesis.degree-program Engineering Informatics en
dc.identifier.stag 57488
utb.result.grade A
dc.date.submitted 2021-08-20


Files in this item

Files Size Format View Description
hanzlík_2021_dp.pdf 6.721Mb PDF View/Open None
hanzlík_2021_op.pdf 132.9Kb PDF View/Open None
hanzlík_2021_vp.pdf 349.1Kb PDF View/Open None

This item appears in the following Collection(s)

Show simple item record

Find fulltext

Search DSpace


Browse

My Account