Чтение книги Python Библиотеки страница 7

CSV-файлы позволяют эффективно хранить и передавать табличные данные между программами. Этот формат широко используется в области обработки данных, анализа данных, а также в различных приложениях для импорта и экспорта информации в табличной форме.

Пример CSV-файла:

Имя,Возраст,Город

Анна,25,Москва

Борис,30,Санкт-Петербург

Виктория,22,Киев

В этом примере каждая строка представляет собой запись с именем, возрастом и городом. Значения разделены запятыми, что является стандартным подходом, но можно использовать и другие разделители.

CSV-файлы легко читаются и создаются с использованием различных программ, включая текстовые редакторы, электронные таблицы (например, Microsoft Excel, Google Sheets) и программы для обработки данных (например, Python с библиотекой Pandas).

3. Основные операции с DataFrame

Просмотр данных:

```python

# Вывести первые n строк DataFrame

print(df.head)

# Вывести последние n строк DataFrame

print(df.tail)

```

Индексация и выбор данных:

```python

# Выбор столбца по имени

age = df['Возраст']

# Выбор строки по индексу

row = df.loc[0]

```

Фильтрация данных:

```python

# Фильтрация по условию

filtered_df = df[df['Возраст'] > 25]

```

Добавление новых столбцов:

```python

# Добавление нового столбца

df['Зарплата'] = [50000, 60000, 45000]

```

Операции с группами:

```python

# Группировка данных по столбцу 'Город' и вычисление среднего значения возраста в каждой группе

grouped_df = df.groupby('Город')['Возраст'].mean

```

4. Визуализация данных с Pandas

Pandas также предоставляет встроенные средства для визуализации данных. Например, гистограмму можно построить следующим образом:

Давайте разберем пошагово строки кода:

– Импорт библиотек:

```python

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

```

Здесь мы импортируем необходимые библиотеки. `pd` – это стандартное соглашение для обозначения библиотеки Pandas. `matplotlib.pyplot` используется для создания графиков, а `seaborn` – библиотека для стилизации графиков и добавления дополнительных функций визуализации.

– Создание данных:

```python

data = {'Имя': ['Анна', 'Борис', 'Виктория'],

'Возраст': [25, 30, 22],

'Город': ['Москва', 'Санкт-Петербург', 'Киев']}

df = pd.DataFrame(data)

```

Мы создаем простой DataFrame с тремя колонками: 'Имя', 'Возраст' и 'Город'. Эти данные представляют собой три записи с именами, возрастами и городами.

Настраиваем стиль seaborn:

```python

sns.set(style="whitegrid")

```

Эта строка устанавливает стиль для графика с помощью библиотеки seaborn. Здесь мы выбрали стиль "whitegrid", который добавляет белую сетку на фоне графика.

– Создаем гистограмму:

```python

plt.figure(figsize=(8, 6))

sns.histplot(df['Возраст'], bins=20, kde=True, color='skyblue')

```

Здесь мы создаем гистограмму для столбца 'Возраст' из DataFrame. `figsize=(8, 6)` устанавливает размер графика. `bins=20` указывает количество столбцов в гистограмме. `kde=True` добавляет оценку плотности на гистограмму. `color='skyblue'` задает цвет графика.

– Добавляем подписи и заголовок:

```python

plt.xlabel('Возраст', fontsize=12)

plt.ylabel('Частота', fontsize=12)

plt.title('Гистограмма возрастов', fontsize=14)

```

Эти строки добавляют подписи к осям и заголовок для улучшения понимания графика

– Добавляем сетку:

```python

plt.grid(axis='y', linestyle='–', alpha=0.7)

```

Эта строка добавляет горизонтальную сетку для лучшей читаемости.

– Показываем график:

```python

plt.show

```

И наконец, эта строка отображает график.

Этот код создает красивую гистограмму с данными о возрасте и демонстрирует базовые шаги визуализации данных с использованием библиотек Pandas, Matplotlib и Seaborn в Python.

Python Библиотеки

Картер Джейд

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: