Чтение книги Data Science. Практика страница 2

NemtyrevAI

Шрифт:

4. Matplotlib: это библиотека визуализации данных в Python, которая предоставляет инструменты для создания различных типов графиков, таких как гистограммы, скаттеры, boxplots и т.д.

5. Seaborn: это библиотека, построенная поверх Matplotlib, которая предоставляет более высокоуровневые инструменты для статистической визуализации данных. Она делает простой визуализацию сложных данных, таких как множественная регрессия, графики распределения и т.д.

6. TensorFlow: это библиотека машинного обучения от Google, которая предоставляет инструменты для создания и обучения сложных моделей глубокого обучения. Она поддерживает различные типы нейронных сетей, такие как свёрточные нейронные сети и рекуррентные нейронные сети.

7. Keras: это библиотека машинного обучения, которая предоставляет простой и модульный интерфейс для создания и обучения моделей глубокого обучения. Она поддерживает различные типы нейронных сетей и может работать поверх TensorFlow, Theano и CNTK.

Эти библиотеки являются лишь небольшим подбором из множества библиотек, доступных для обработки данных и машинного обучения в Python. Каждая библиотека имеет свои особенности и преимущества, поэтому выбор зависит от конкретных потребностей конкретного проекта, давайте рассмотрим мою любимую Scikit-learn на ней я разработал AI API-сервисы:

"GenderDetect AI" – модель определения пола по имени

"GeoLocate AI" – модель определения геолокации по IP-адресу

"ProviderInfo AI" – модель определения провайдера по IPv6

Библиотека Scikit-learn поддерживает множество алгоритмов машинного обучения, такие как:

1. Классификация:

* Logistic Regression (логистическая регрессия)

* Linear Discriminant Analysis (линейный дискриминантный анализ)

* Decision Trees (дерево решений)

* Random Forests (случайные леса)

* Support Vector Machines (машины опорных векторов)

* K-Nearest Neighbors (k ближайших соседей)

* Gradient Boosting (градиентный бустинг)

2. Регрессия:

* Linear Regression (линейная регрессия)

* Ridge Regression (линейная регрессия с регуляризацией)

* Lasso Regression (линейная регрессия с L1-регуляризацией)

* Polynomial Regression (полиномиальная регрессия)

* Support Vector Regression (регрессия с машиной опорных векторов)

* Decision Trees Regression (регрессия с деревом решений)

* Random Forests Regression (регрессия с случайными лесами)

3. Кластеризация:

* K-Means Clustering (кластеризация методом k-средних)

* Hierarchical Clustering (иерархическая кластеризация)

* DBSCAN (кластеризация с плотностью)

4. Дименсиональное сокращение:

* Principal Component Analysis (анализ главных компонент)

* Linear Discriminant Analysis (линейный дискриминантный анализ)

* t-SNE (t-Student стохастическая близость смещением и растяжением)

5. Избирательное обучение:

* Recursive Feature Elimination (рекурсивное удаление признаков)

* SelectKBest (выбор K лучших признаков)

* Lasso/Ridge Regression Feature Selection (выбор признаков с помощью линейной регрессии с L1/L2-регуляризацией)

6. Оценка моделей:

* Cross-Validation (перекрёстная проверка)

* Grid Search (поиск по сетке)

* Randomized Search (рандомизированный поиск)

* Learning Curve (график обучения)

Кроме основных алгоритмов машинного обучения, библиотека Scikit-learn также предоставляет множество вспомогательных функций и инструментов, которые могут быть полезны для обработки данных и обучения моделей. Вот некоторые из них:

1. Предобработка данных:

* Функции для нормализации и стандартизации данных

* Функции для обработки пропущенных данных

* Функции для кодирования категориальных переменных

* Функции для выборки данных

2. Извлечение признаков:

* Функции для извлечения текстовых признаков, такие как CountVectorizer и TfidfVectorizer

* Функции для извлечения признаков из изображений, такие как Histogram of Oriented Gradients (HOG) и Local Binary Patterns (LBP)

* Функции для извлечения признаков из аудио, такие как Mel-frequency cepstral coefficients (MFCC) и Chroma features

Data Science. Практика

NemtyrevAI

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: