Чтение книги ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков страница 2

ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков

вернуться

Михнин Алексей

Шрифт:

Кроме того, мы будем обращать ваше внимание на важные моменты, которые могут помочь вам работать с ChatGPT более продуктивно и эффективно. Эти моменты будут помечены словом "Внимание", чтобы вы смогли легко заметить их и улучшить свой опыт работы с ChatGPT.

Когда мы говорим о "Результате", мы имеем в виду тестирование решения, предложенного ChatGPT, в соответствующей среде разработки.

Для языка программирования Python мы будем использовать среду разработки Colab/Jupiter для тестирования наших решений. В случае работы с SAP мы будем использовать среду разработки SAP ERP, а для работы с MS Excel – MS Excel.

Мы убедимся, что предложенное решение, созданное с помощью ChatGPT, проходит тестирование в соответствующей среде разработки, что гарантирует его готовность для практического применения в вашей работе.

Шаг1 Загрузка и изучение данных

На этом шаге мы попробуем загрузить информацию из нашего датасета в среду разработки и получить общую информацию о данных.

Это позволит нам более детально изучить и понять наш набор данных, что в свою очередь поможет нам выбрать правильные инструменты и методы для анализа данных и решения поставленных задач.

Пользователь:

Напиши мне код на python – Открой файл titanic.csv с данными и изучите общую информацию по данному файлу и представь все в табличном виде.

Чат:

Для выполнения этого задания мы будем использовать библиотеку pandas.

Если у вас ее нет, установите с помощью команды:

Теперь, когда у вас есть библиотека pandas, следуйте приведенному ниже коду для открытия файла 'titanic.csv' и вывода общей информации о данных в табличном виде:

После выполнения этого кода вы увидите общую информацию о данных, такую как количество строк, столбцов, типы данных и количество непустых значений. Также вы увидите первые 10 строк данных для предварительного просмотра.

Учтите, что вам нужно будет заменить 'titanic.csv' на действительный путь к файлу CSV на вашем компьютере или URL-адрес файла, если он доступен онлайн.

Результат:

Выполняем все рекомендации Чата и посмотрим смотрим что из этого получилось.

Шаг2 Предварительная обработка данных

Давайте попробуем предварительно обработать данные на этом шаге. Мы проверим на наличие дубликатов, пропущенных значений и другие аномалии. Мы не знаем, какое качество данных находится в нашем файле на входе, поэтому этот шаг очень важен для последующего анализа данных. Предварительная обработка позволит нам избавиться от мусорных значений и повысит качество нашего анализа.

Пользователь

Выведи все названия столбцов в одну строку и выполни шаги по предварительной обработке данных т.е. проверь на дубликаты, на наличие пропущенных значений и т.п. и выведи отчет по результатам предварительной обработки.

Чат:

Для выполнения этой задачи мы будем использовать библиотеку pandas.

Приведенный ниже код выполняет предварительную обработку данных и выводит отчет по результатам:

После выполнения этого кода вы получите отчет о предварительной обработке данных, включая количество удаленных дубликатов и заполненных пропущенных значений. Код также выводит первые 10 строк обработанных данных для предварительного просмотра.

Результат:

Выполняем все рекомендации Чата и посмотрим смотрим что из этого получилось.

Внимание:

Мы заметили, что при каждом ответе ChatGPT повторяется код, который устанавливает библиотеку pandas для работы с табличными данными, и загружает данные из нашего датасета в переменную data. Чтобы избежать повторения этого кода, мы можем поступить следующим образом:

ChatGPT для саморазвития: Освоения программирования, консалтинга и изучения иностранных языков

Михнин Алексей

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: