Renée M. P. Teate sql dla analityków danych. tworzenie zbiorów danych dla początkujących full.pdf

(10276 KB) Pobierz
Tytuł oryginału: SQL for Data Scientists A Beginner’s Guide for Building Datasets for Analysis
Tłumaczenie: Filip Kamiński
ISBN: 978-83-283-9744-6
Copyright © 2021 by John Wiley & Sons, Inc., Hoboken, New Jersey
All Rights Reserved. This translation published under license with the original publisher John Wiley &
Sons, Inc.
Translation copyright © 2022 by Helion S.A.
No part of this publication may be reproduced, stored in a retrieval system, or transmitted in any form or by
any means, electronic, mechanical, photocopying, recording, scanning or otherwise without either the prior
written permission of the Publisher.
WILEY and the WILEY logo are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its
affiliates, in the United States and other countries, and may not be used without written permission. Linux
is a registered trademark of Linus Torvalds. All other trademarks are the property of their respective
owners. John Wiley & Sons, Inc. is not associated with any product or vendor mentioned in this book.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz wydawca dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne
i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym
ewentualne naruszenie praw patentowych lub autorskich. Autor oraz wydawca nie ponoszą również
żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
https://helion.pl/user/opinie/sqland
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
https://ftp.helion.pl/przyklady/sqland.zip
Helion S.A.
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
https://helion.pl
(księgarnia internetowa, katalog książek)
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
O autorce
O korektorze merytorycznym
Podziękowania
Wprowadzenie
Rozdział 1.
Źródła
danych
Źródła
danych
Narzędzia do
łączenia
się ze
źródłami
danych i edycji zapytań SQL
Relacyjne bazy danych
Hurtownie danych
Pytania dotyczące
źródła
danych
Wprowadzenie do bazy danych Farmer’s Market
Uwaga dotycząca terminologii stosowanej w uczeniu maszynowym
Ćwiczenia
9
10
11
13
17
17
18
19
23
25
27
28
29
Rozdział 2. Instrukcja SELECT
Instrukcja SELECT
Podstawowa składnia zapytania SELECT
Wybieranie kolumn i ograniczanie liczby zwracanych wierszy
Sortowanie wyników za pomocą klauzuli ORDER BY
Wprowadzenie do prostych obliczeń inline
Więcej przykładów obliczeń typu inline — zaokrąglanie
Więcej przykładów obliczeń inline — konkatenacja
łańcuchów
znaków
Ocena wyniku zapytania
Podsumowanie instrukcji SELECT
Ćwiczenia
30
30
30
31
33
35
37
39
41
44
45
Kup książkę
Poleć książkę
Spis treści
Rozdział 3. Klauzula WHERE
Klauzula WHERE
Filtrowanie wyników z zapytania SELECT
Filtrowanie według wielu warunków
Wielokolumnowe filtrowanie warunkowe
Więcej sposobów filtrowania
BETWEEN
IN
LIKE
IS NULL
Ostrzeżenie na temat porównań z wartościami NULL
Filtrowanie za pomocą podzapytań
Ćwiczenia
46
46
46
49
54
55
55
56
57
58
58
60
61
Rozdział 4. Instrukcja CASE
Składnia instrukcji CASE
Tworzenie flag binarnych za pomocą CASE
Grupowanie wartości ciągłych za pomocą CASE
Kodowanie wartości kategorialnych za pomocą CASE
Podsumowanie instrukcji CASE
Ćwiczenia
62
62
65
66
69
70
71
Rozdział 5. Złączenia w SQL-u
Relacje w bazie danych i złączenia
Pułapka często pojawiająca się podczas filtrowania połączonych danych
Złączenie więcej niż dwóch tabel
Ćwiczenia
73
73
82
85
87
Rozdział 6. Agregacja wyników na potrzeby analizy
Składnia GROUP BY
Statystyki podsumowujące grupy
Obliczenia wewnątrz funkcji agregujących
Minimum i maksimum
COUNT i COUNT DISTINCT
Średnia
Filtrowanie za pomocą HAVING
Instrukcje CASE wewnątrz funkcji agregujących
Ćwiczenia
89
89
90
93
98
99
101
102
103
106
Rozdział 7. Funkcje okienkowe i podzapytania
ROW_NUMBER
RANK i DENSE_RANK
NTILE
Agregujące funkcje okienkowe
LAG i LEAD
Ćwiczenia
107
108
111
112
113
118
121
6
Kup książkę
Poleć książkę
Spis treści
Rozdział 8. Funkcje związane z datą i czasem
Ustawianie wartości w polu typu datetime
EXTRACT i DATE_PART
DATE_ADD i DATE_SUB
DATEDIFF
TIMESTAMPDIFF
Funkcje do obsługi dat w obliczeniach
na zagregowanych danych i funkcjach okienkowych
Ćwiczenia
123
124
125
126
128
128
129
135
Rozdział 9. Eksploracyjna analiza danych w języku SQL
Eksploracyjna analiza danych z użyciem języka SQL
Eksploracja tabeli product
Eksploracja potencjalnych wartości w kolumnach
Badanie zmian w czasie
Eksploracja wielu tabel naraz
Stan a sprzedaż
Ćwiczenia
137
138
138
141
143
145
148
152
Rozdział 10. Tworzenie zbiorów danych na potrzeby raportów analitycznych
Wymagania stawiane zbiorom danych do analizy
Korzystanie z własnych analitycznych zbiorów danych
— wspólne wyrażenia tablicowe i widoki
Wykorzystanie SQL-a do tworzenia bardziej zaawansowanych raportów
Ćwiczenia
153
154
159
163
167
Rozdział 11. Bardziej zaawansowane zapytania
Operator UNION
Samozłączenie w celu określenia, czy dana wartość ustanowiła rekord
Nowi i powracający klienci według tygodni
Podsumowanie
Ćwiczenia
168
168
172
176
179
180
Rozdział 12. Tworzenie zbiorów danych na potrzeby uczenia maszynowego
Zbiory danych dla modeli szeregów czasowych
Zbiory danych do klasyfikacji binarnej
Tworzenie zbioru danych
Poszerzanie zbioru cech
Inżynieria cech
Kolejne kroki
Ćwiczenia
181
182
184
186
189
192
195
196
Rozdział 13. Przykłady tworzenia analitycznych zbiorów danych
Jakie czynniki wpływają na sprzedaż
świeżych
produktów?
Jak zmienia się sprzedaż w zależności od kodu pocztowego klienta,
odległości od targowiska oraz danych demograficznych?
Jak rozkład cen produktów wpływa na sprzedaż?
197
197
209
215
7
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin