zaawansowana analiza danych w pyspark. metody przetwarzania informacji na szeroką skalę z wykorzystaniem pythona i systemu spark pełna wersja.pdf

(3892 KB) Pobierz

•

Kup książkę

•

Poleć książkę

•

Oceń książkę

•

Księgarnia internetowa

•

Lubię to! » Nasza społeczność

Spis treści

Słowo wstępne ........................................................................................................ 7

1. Analiza wielkich zbiorów danych ............................................................................ 11

Praca z wielkimi zbiorami danych

Przedstawiamy Apache Spark i PySpark

Komponenty

PySpark

Ekosystem

Spark 3.0

PySpark i wyzwania w nauce o danych

O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark ............................................. 19

Architektura systemu Spark

Instalacja interfejsu PySpark

Przygotowanie danych

Analiza danych za pomocą struktury DataFrame

Szybkie statystyki zbiorcze w strukturze DataFrame

Przestawienie i przekształcenie struktury DataFrame

Złączenie struktur DataFrame i wybór cech

Ocena modelu

Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler .................................................... 40

Zbiór danych

Wymagania dla systemu rekomendacyjnego

Algorytm naprzemiennych najmniejszych kwadratów

Przygotowanie danych

Utworzenie pierwszego modelu

Wyrywkowe sprawdzanie rekomendacji

Kup książkę

Poleć książkę

Ocena jakości rekomendacji

Obliczenie wskaźnika AUC

Dobór wartości hiperparametrów

Przygotowanie rekomendacji

Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego ..................................... 61

Drzewa i lasy decyzyjne

Przygotowanie danych

Pierwsze drzewo decyzyjne

Hiperparametry drzewa decyzyjnego

Regulacja drzewa decyzyjnego

Weryfikacja cech kategorialnych

Losowy las decyzyjny

Prognozowanie

Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania

według k-średnich ................................................................................................. 86

Grupowanie według k-średnich

Wykrywanie anomalii w ruchu sieciowym

Dane KDD Cup 1999

Pierwsza próba grupowania

Dobór wartości k

Wizualizacja w środowisku R

Normalizacja cech

Zmienne kategorialne

Wykorzystanie etykiet i wskaźnika entropii

Grupowanie w akcji

Dalsze kroki

101

102

104

6. Wikipedia, algorytmy LDA i Spark NLP .................................................................. 105

Algorytm LDA

Algorytm LDA w interfejsie PySpark

106

Pobranie danych

Spark NLP

Przygotowanie środowiska

107

108

109

Przekształcenie danych

Przygotowanie danych za pomocą biblioteki Spark NLP

Metoda TF-IDF

109

111

114

Spis treści

Poleć książkę

Kup książkę

Wyliczenie wskaźników TF-IDF

Utworzenie modelu LDA

Dalsze kroki

115

116

118

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek ....................... 119

Przygotowanie danych

Konwersja ciągów znaków na znaczniki czasu

Obsługa błędnych rekordów danych

120

122

124

Analiza danych geoprzestrzennych

Wprowadzenie do formatu GeoJSON

Biblioteka GeoPandas

125

126

Sesjonowanie w interfejsie PySpark

Budowanie sesji — dodatkowe sortowanie danych w systemie Spark

129

130

Dalsze kroki

132

8. Szacowanie ryzyka finansowego ........................................................................... 133

Terminologia

Metody obliczania wskaźnika VaR

Wariancja-kowariancja

Symulacja historyczna

Symulacja Monte Carlo

134

135

Nasz model

Pobranie danych

Przygotowanie danych

Określenie wag czynników

Losowanie prób

Wielowymiarowy rozkład normalny

136

137

140

142

144

Wykonanie testów

Wizualizacja rozkładu zwrotów

Dalsze kroki

145

148

9. Analiza danych genomicznych i projekt BDG ......................................................... 150

Rozdzielenie sposobów zapisu i modelowania danych

Przygotowanie pakietu ADAM

Przetwarzanie danych genomicznych za pomocą pakietu ADAM

Konwersja formatów plików za pomocą poleceń pakietu ADAM

Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM

151

153

154

155

Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych

ENCODE

Dalsze kroki

160

164

Spis treści

Kup książkę

Poleć książkę

Plik z chomika:

maszynowykarabin

zaawansowana analiza danych w pyspark. metody przetwarzania informacji na szeroką skalę z wykorzystaniem pythona i systemu spark pełna wersja.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: