Data Science: Analiza danych w Python i PANDAS

Otwórz sobie drzwi do Data Science! Przenieś się na wyższy poziom i pracuj jak profesjonalny analityk danych!

4.69 (1574 reviews)

Udemy

platform

Polski

language

Programming Languages

Why take this course?

Świetnie, skoro jesteś gotowy do poznania DataFrame w PANDAS i kolejnych etapów analizy danych, to zacznijmy od podstaw. DataFrame jest to struktura danych w PANDAS, która pozwala na przechowywanie i manipulowanie dużymi zbiorami tabularnych danych. Jest to kluczowy obiekt, który może składać się z jednej lub wielu kolumn, a także posiada indeksację zwaną MultiIndex.

Tworzenie i manipulowanie `DataFrame`:

Tworzenie DataFrame: Możesz go stworzyć na podstawie istniejącej tabeli z Pythonu lub Importując dane z zewnętrznych źródeł, takich jak pliki CSV, Excel czy nawet bazy danych.
```
import pandas as pd

# Przykład z pliku CSV
df = pd.read_csv('path/to/your/file.csv')
```
Dodawanie lub usuwanie kolumn: Możesz zwiększyć lub zmniejszyć liczbę kolumn w DataFrame przez dodawanie nowych kolumn lub usuwanie istniejących.
```
# Dodanie nowej kolumny
df['new_column'] = [1, 2, 3]

# Usunięcie kolumny
df.drop('old_column', axis=1, inplace=True)
```

Przebudowanie indeksu DataFrame: Mógłbyś przekonwertować indeks bieżący na wielomianowy lub odwrócić ten proces.

# Tworzenie MultiIndex z istniejących danych
df = df.reset_index(drop=True)
df[['A', 'B']] = df[['B', 'A']]  # Przebudowanie indeksu (reordering kolumn)

# Odzyskanie wielomianowego indeksu
df.set_index('column_name', inplace=True)

Grupowanie i agregacja danych: Możesz zgrupować dane według określonych kolumn i wykonać na nich agregacje, aby zobaczyć charakterystyczne cechy grup danych.
```
df.groupby('column_name').agg({'another_column': 'sum'})
```

Łączenie DataFrame: Możesz połączyć różne DataFrame ze sobą, zarówno po poziomie horizontalnym (kolumnowo), jak i verticalnym (wierszowo).

# Łączenie poziomie
df1 = pd.read_csv('path/to/file1.csv')
df2 = pd.read_csv('path/to/file2.csv')
result = pd.concat([df1, df2], axis=1)

# Łączenie wierszowo (na przykład po podziale na grupy)
grouped = df.groupby('column_name')
result = grouped.agg(...)

Wykresowanie danych: Możesz wygenerować różne rodzaje wykresów, aby wizualizować dane. PANDAS używa modułu matplotlib do stworzenia wykresów.
```
df.plot(kind='line', x='column_name', y='another_column')
```

Pobieranie i zapisywanie danych: Możesz łatwo zapewnić persystencję danych, pobierając je z zewnętrznych źródeł lub zapisując na dysku.

# Zapisywanie `DataFrame` do pliku CSV
df.to_csv('path/to/file.csv', index=False)

# Pobieranie `DataFrame` z pliku Excel
df = pd.read_excel('path/to/file.xlsx')

Te są podstawy pracy z DataFrame w PANDAS. Jako że jesteś zainteresowan Data Science'em, znajdziesz w nim wiele używnych narzędzi do analizy danych i przeprowadzania badań statystycznych. Praktyka jest kluczowa, więc zacznij od prostych zadań i postępuj krok po kroku, zwiększając złożoność analiz. Powodzenia!