spark.-blyskawiczna-analiza-danych.-wydanie-ii full version.pdf

(7691 KB) Pobierz
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Przedmowa ........................................................................................................... 13
Wprowadzenie ....................................................................................................... 15
1. Wprowadzenie do Apache Spark — ujednolicony silnik analityczny ........................ 21
Geneza Sparka
Big data i przetwarzanie rozproszone w Google
Hadoop w Yahoo!
Wczesne lata Sparka w AMPLab
21
21
22
23
Czym jest Apache Spark?
Szybkość
Łatwość użycia
Modułowość
Rozszerzalność
24
24
25
25
25
Ujednolicona analityka
Komponenty Apache Spark tworzą ujednolicony stos
Spark MLlib
Wykonywanie rozproszone w Apache Spark
25
26
27
30
Z punktu widzenia programisty
Kto używa Sparka i w jakim celu?
Popularność w społeczności i dalsza ekspansja
34
34
36
2. Pobranie Apache Spark i rozpoczęcie pracy .............................................................. 38
Krok 1. — pobranie Apache Spark
Pliki i katalogi Sparka
38
39
Krok 2. — używanie powłoki Scali lub PySparka
Używanie komputera lokalnego
40
42
Krok 3. — poznanie koncepcji aplikacji Apache Spark
Aplikacja Sparka i SparkSession
Zlecenia Sparka
Etapy Sparka
Zadania Sparka
44
44
45
46
46
5
Kup książkę
Poleć książkę
Transformacje, akcje i późna ocena
Transformacje wąskie i szerokie
46
48
Spark UI
Pierwsza niezależna aplikacja
Zliczanie cukierków M&M’s
Tworzenie niezależnych aplikacji w Scali
48
52
52
57
Podsumowanie
58
3. API strukturalne Apache Spark ................................................................................ 59
Spark — co się kryje za akronimem RDD?
Strukturyzacja Sparka
Kluczowe zalety i wartość struktury
59
60
61
API DataFrame
Podstawowe typy danych Sparka
Strukturalne i złożone typy danych Sparka
Schemat i tworzenie egzemplarza DataFrame
Kolumny i wyrażenia
Rekord
Najczęściej przeprowadzane operacje z użyciem DataFrame
Przykład pełnego rozwiązania wykorzystującego DataFrame
63
64
65
65
69
72
73
82
API Dataset
Obiekty typowane i nietypowane oraz ogólne rekordy
Tworzenie egzemplarza Dataset
Operacje na egzemplarzu Dataset
Przykład pełnego rozwiązania wykorzystującego Dataset
83
84
85
86
87
Egzemplarz DataFrame kontra Dataset
Kiedy używać RDD?
88
89
Silnik Spark SQL
Optymalizator Catalyst
90
90
Podsumowanie
95
4. Spark SQL i DataFrame — wprowadzenie do wbudowanych źródeł danych ............. 96
Używanie Spark SQL w aplikacji Sparka
Przykłady podstawowych zapytań
97
97
Widoki i tabele SQL
Tabele zarządzane kontra tabele niezarządzane
Tworzenie baz danych i tabel SQL
Tworzenie widoku
Wyświetlanie metadanych
Buforowanie tabel SQL
Wczytywanie zawartości tabeli do egzemplarza DataFrame
102
102
102
104
105
106
106
6
|
Spis treści
Poleć książkę
Kup książkę
Źródła danych dla egzemplarzy DataFrame i tabel SQL
DataFrameReader
DataFrameWriter
Parquet
JSON
CSV
Avro
ORC
Obrazy
Pliki binarne
106
107
108
109
112
114
116
119
120
121
Podsumowanie
123
5. Spark SQL i DataFrame — współpraca z zewnętrznymi źródłami danych ............... 124
Spark SQL i Apache Hive
Funkcje zdefiniowane przez użytkownika
124
125
Wykonywanie zapytań z użyciem powłoki Spark SQL, Beeline i Tableau
Używanie powłoki Spark SQL
Praca z narzędziem Beeline
Praca z Tableau
129
130
131
132
Zewnętrzne źródła danych
Bazy danych SQL i JDBC
PostgreSQL
MySQL
Azure Cosmos DB
MS SQL Server
Inne zewnętrzne źródła danych
138
138
140
141
142
144
145
Funkcje wyższego rzędu w egzemplarzach DataFrame i silniku Spark SQL
Opcja 1. — konwersja struktury
Opcja 2. — funkcja zdefiniowana przez użytkownika
Wbudowane funkcje dla złożonych typów danych
Funkcje wyższego rzędu
146
146
146
147
149
Najczęściej wykonywane operacje w DataFrame i Spark SQL
Suma
Złączenie
Okno czasowe
Modyfikacje
152
155
156
157
159
Podsumowanie
162
6. Spark SQL i Dataset .............................................................................................. 163
Pojedyncze API dla Javy i Scali
Klasy case Scali i JavaBean dla egzemplarzy Dataset
163
164
Spis treści
Kup książkę
|
7
Poleć książkę
Zgłoś jeśli naruszono regulamin