Шрифт:
CSV-файлы позволяют эффективно хранить и передавать табличные данные между программами. Этот формат широко используется в области обработки данных, анализа данных, а также в различных приложениях для импорта и экспорта информации в табличной форме.
Пример CSV-файла:
Имя,Возраст,Город
Анна,25,Москва
Борис,30,Санкт-Петербург
Виктория,22,Киев
В этом примере каждая строка представляет собой запись с именем, возрастом и городом. Значения разделены запятыми, что является стандартным подходом, но можно использовать и другие разделители.
CSV-файлы легко читаются и создаются с использованием различных программ, включая текстовые редакторы, электронные таблицы (например, Microsoft Excel, Google Sheets) и программы для обработки данных (например, Python с библиотекой Pandas).
3. Основные операции с DataFrame
Просмотр данных:
```python
# Вывести первые n строк DataFrame
print(df.head)
# Вывести последние n строк DataFrame
print(df.tail)
```
Индексация и выбор данных:
```python
# Выбор столбца по имени
age = df['Возраст']
# Выбор строки по индексу
row = df.loc[0]
```
Фильтрация данных:
```python
# Фильтрация по условию
filtered_df = df[df['Возраст'] > 25]
```
Добавление новых столбцов:
```python
# Добавление нового столбца
df['Зарплата'] = [50000, 60000, 45000]
```
Операции с группами:
```python
# Группировка данных по столбцу 'Город' и вычисление среднего значения возраста в каждой группе
grouped_df = df.groupby('Город')['Возраст'].mean
```
4. Визуализация данных с Pandas
Pandas также предоставляет встроенные средства для визуализации данных. Например, гистограмму можно построить следующим образом:
Давайте разберем пошагово строки кода:
– Импорт библиотек:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```
Здесь мы импортируем необходимые библиотеки. `pd` – это стандартное соглашение для обозначения библиотеки Pandas. `matplotlib.pyplot` используется для создания графиков, а `seaborn` – библиотека для стилизации графиков и добавления дополнительных функций визуализации.
– Создание данных:
```python
data = {'Имя': ['Анна', 'Борис', 'Виктория'],
'Возраст': [25, 30, 22],
'Город': ['Москва', 'Санкт-Петербург', 'Киев']}
df = pd.DataFrame(data)
```
Мы создаем простой DataFrame с тремя колонками: 'Имя', 'Возраст' и 'Город'. Эти данные представляют собой три записи с именами, возрастами и городами.
Настраиваем стиль seaborn:
```python
sns.set(style="whitegrid")
```
Эта строка устанавливает стиль для графика с помощью библиотеки seaborn. Здесь мы выбрали стиль "whitegrid", который добавляет белую сетку на фоне графика.
– Создаем гистограмму:
```python
plt.figure(figsize=(8, 6))
sns.histplot(df['Возраст'], bins=20, kde=True, color='skyblue')
```
Здесь мы создаем гистограмму для столбца 'Возраст' из DataFrame. `figsize=(8, 6)` устанавливает размер графика. `bins=20` указывает количество столбцов в гистограмме. `kde=True` добавляет оценку плотности на гистограмму. `color='skyblue'` задает цвет графика.
– Добавляем подписи и заголовок:
```python
plt.xlabel('Возраст', fontsize=12)
plt.ylabel('Частота', fontsize=12)
plt.title('Гистограмма возрастов', fontsize=14)
```
Эти строки добавляют подписи к осям и заголовок для улучшения понимания графика
– Добавляем сетку:
```python
plt.grid(axis='y', linestyle='–', alpha=0.7)
```
Эта строка добавляет горизонтальную сетку для лучшей читаемости.
– Показываем график:
```python
plt.show
```
И наконец, эта строка отображает график.
Этот код создает красивую гистограмму с данными о возрасте и демонстрирует базовые шаги визуализации данных с использованием библиотек Pandas, Matplotlib и Seaborn в Python.