zaawansowana analiza danych w pyspark. metody przetwarzania informacji na szeroką skalę z wykorzystaniem pythona i systemu spark pełna wersja.pdf

(3892 KB) Pobierz
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Słowo wstępne ........................................................................................................ 7
1. Analiza wielkich zbiorów danych ............................................................................ 11
Praca z wielkimi zbiorami danych
Przedstawiamy Apache Spark i PySpark
Komponenty
PySpark
Ekosystem
12
14
14
15
16
Spark 3.0
PySpark i wyzwania w nauce o danych
O czym jest ta książka
17
17
18
2. Wprowadzenie do analizy danych za pomocą PySpark ............................................. 19
Architektura systemu Spark
Instalacja interfejsu PySpark
Przygotowanie danych
Analiza danych za pomocą struktury DataFrame
Szybkie statystyki zbiorcze w strukturze DataFrame
Przestawienie i przekształcenie struktury DataFrame
Złączenie struktur DataFrame i wybór cech
Ocena modelu
Dalsze kroki
21
22
24
28
32
34
36
37
39
3. Rekomendowanie muzyki i dane Audioscrobbler .................................................... 40
Zbiór danych
Wymagania dla systemu rekomendacyjnego
Algorytm naprzemiennych najmniejszych kwadratów
Przygotowanie danych
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
41
43
45
46
48
52
3
Kup książkę
Poleć książkę
Ocena jakości rekomendacji
Obliczenie wskaźnika AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki
53
55
56
58
60
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego ..................................... 61
Drzewa i lasy decyzyjne
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki
62
64
68
74
75
79
81
84
84
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania
według k-średnich ................................................................................................. 86
Grupowanie według k-średnich
Wykrywanie anomalii w ruchu sieciowym
Dane KDD Cup 1999
87
88
88
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki
89
92
94
97
99
101
102
104
6. Wikipedia, algorytmy LDA i Spark NLP .................................................................. 105
Algorytm LDA
Algorytm LDA w interfejsie PySpark
106
106
Pobranie danych
Spark NLP
Przygotowanie środowiska
107
108
109
Przekształcenie danych
Przygotowanie danych za pomocą biblioteki Spark NLP
Metoda TF-IDF
109
111
114
4
|
Spis treści
Poleć książkę
Kup książkę
Wyliczenie wskaźników TF-IDF
Utworzenie modelu LDA
Dalsze kroki
115
116
118
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek ....................... 119
Przygotowanie danych
Konwersja ciągów znaków na znaczniki czasu
Obsługa błędnych rekordów danych
120
122
124
Analiza danych geoprzestrzennych
Wprowadzenie do formatu GeoJSON
Biblioteka GeoPandas
125
125
126
Sesjonowanie w interfejsie PySpark
Budowanie sesji — dodatkowe sortowanie danych w systemie Spark
129
130
Dalsze kroki
132
8. Szacowanie ryzyka finansowego ........................................................................... 133
Terminologia
Metody obliczania wskaźnika VaR
Wariancja-kowariancja
Symulacja historyczna
Symulacja Monte Carlo
134
134
135
135
135
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
Wielowymiarowy rozkład normalny
136
137
137
140
142
144
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki
145
148
148
9. Analiza danych genomicznych i projekt BDG ......................................................... 150
Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
Konwersja formatów plików za pomocą poleceń pakietu ADAM
Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
151
153
154
155
155
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych
ENCODE
Dalsze kroki
160
164
Spis treści
Kup książkę
|
5
Poleć książkę
Zgłoś jeśli naruszono regulamin