python i praca z danymi. przetwarzanie, analiza, modelowanie i wizualizacja. wydanie iii full.pdf

(30282 KB) Pobierz
Tytuł oryginału: Python Data Analysis: Perform data collection, data processing, wrangling, visualization,
and model building using Python, 3rd Edition
Tłumaczenie: Krzysztof Sawka
ISBN: 978-83-283-8360-9
Copyright © Packt Publishing 2021. First published in the English language under the title ‘Python Data
Analysis - Third Edition’ – (9781789955248).
Polish edition copyright © 2022 by Helion S.A.
All rights reserved.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz wydawca dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne
i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym
ewentualne naruszenie praw patentowych lub autorskich. Autor oraz wydawca nie ponoszą również
żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Helion S.A.
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
https://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
https://helion.pl/user/opinie/pyprda
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Wstęp
13
Część I. Podstawy analizy danych
Rozdział 1. Wprowadzenie do bibliotek Pythona
Wyjaśnienie pojęcia „analiza danych”
Standardowy proces analizy danych
Proces KDD
Proces SEMMA
Proces CRISP-DM
Analiza danych a danetyka
Role analityka danych i danetyka
Umiejętności analityka danych oraz danetyka
Instalacja
środowiska
Python 3
Instalacja i konfigurowanie Pythona w systemie Windows
Instalacja i konfigurowanie Pythona w Linuksie
Instalacja i konfigurowanie Pythona w systemie macOS
za pomocą instalatora graficznego
Instalacja i konfigurowanie Pythona w systemie macOS
za pomocą menedżera Homebrew
Oprogramowanie używane w tej książce
Używanie aplikacji IPython jako powłoki
Odczytywanie stron podręcznika
Źródła
informacji na temat bibliotek analizy danych w Pythonie
Korzystanie z aplikacji JupyterLab
Stosowanie aplikacji Jupyter Notebook
21
22
23
24
25
25
27
27
28
30
30
31
31
31
32
33
35
35
36
37
Kup książkę
Poleć książkę
Spis treści
Zaawansowane funkcje aplikacji Jupyter Notebook
Skróty klawiszowe
Instalowanie innych jąder
Realizowanie poleceń powłoki
Rozszerzenia
Podsumowanie
38
38
38
39
40
44
Rozdział 2. Biblioteki NumPy i pandas
Wymogi techniczne
Tablice NumPy
Własności tablic
Wybieranie elementów tablicy
Numeryczne typy danych tablic NumPy
Obiekty dtype
Kody znakowe typów danych
Konstruktory dtype
Atrybuty dtype
Manipulowanie wymiarami tablic
Łączenie
tablic NumPy
Rozdzielanie tablic NumPy
Zmiana typu danych tablic NumPy
Tworzenie widoków i kopii NumPy
Fragmentowanie tablic NumPy
Indeksowanie logiczne i indeksowanie specjalne
Rozgłaszanie tablic
Tworzenie obiektów DataFrame biblioteki pandas
Obiekt Series biblioteki pandas
Odczytywanie i kwerendowanie danych Quandl
Opisywanie obiektów DataFrame
Grupowanie i złączanie obiektów DataFrame
Praca z brakującymi danymi
Tworzenie tabel przestawnych
Rozwiązywanie kwestii dat
Podsumowanie
Bibliografia
45
46
46
48
49
50
52
52
53
53
54
55
58
60
61
62
64
65
67
68
71
74
76
80
81
82
84
85
Rozdział 3. Statystyka
Wymogi techniczne
Atrybuty i ich typy
Typy atrybutów
Atrybuty dyskretne i ciągłe
Pomiar tendencji centralnej
Średnia
arytmetyczna
Dominanta
Mediana
Pomiar dyspersji
Skośność i kurtoza
86
87
87
87
88
89
89
90
90
90
93
4
Kup książkę
Poleć książkę
Spis treści
Określanie związków za pomocą współczynników kowariancji i korelacji
Współczynnik korelacji Pearsona
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Kendalla
Centralne twierdzenie graniczne
Pozyskiwanie prób
Przeprowadzanie testów parametrycznych
Przeprowadzanie testów nieparametrycznych
Podsumowanie
94
94
95
95
96
96
98
102
107
Rozdział 4. Algebra liniowa
Wymogi techniczne
Dopasowywanie do wielomianów za pomocą biblioteki NumPy
Wyznacznik macierzy
Określanie rzędu macierzy
Macierz odwrotna w bibliotece NumPy
Rozwiązywanie równań liniowych za pomocą biblioteki NumPy
Rozkład macierzy za pomocą SVD
Wartości własne i wektory własne w bibliotece NumPy
Generowanie liczb losowych
Rozkład dwumianowy
Rozkład normalny
Testowanie normalności rozkładu danych za pomocą biblioteki SciPy
Tworzenie tablicy maskowanej za pomocą podpakietu numpy.ma
Podsumowanie
108
109
109
111
111
112
113
114
115
116
117
118
119
122
124
Część II.
Eksploracyjna analiza danych i oczyszczanie danych
Rozdział 5. Wizualizacja danych
Wymogi techniczne
Wizualizacja za pomocą pakietu Matplotlib
Akcesoria wykresu
Wykres punktowy
Wykres liniowy
Wykres kołowy
Wykres kolumnowy
Histogram
Wykres bąbelkowy
Tworzenie wykresów za pomocą biblioteki pandas
Zaawansowana wizualizacja za pomocą pakietu seaborn
Wykresy lm
Wykresy kolumnowe
Wykresy rozkładu
Wykresy pudełkowe
Wykresy KDE
Wykresy skrzypcowe
127
127
128
129
131
132
133
134
135
136
137
139
140
142
143
143
144
145
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin