Как импортировать данные Excel в скрипты Python с помощью Pandas

Microsoft Excel — наиболее широко используемое программное обеспечение для работы с электронными таблицами в мире, и для этого есть веские причины. Excel имеет удобный интерфейс и мощные инструменты интеграции, упрощающие работу с данными.

Но если вы хотите обрабатывать данные более тщательно, вам нужно использовать вещи, выходящие за рамки возможностей Excel, и начать использовать язык программирования, такой как Python. Вместо того, чтобы вручную копировать данные в базу данных, вот краткое руководство по загрузке данных Excel в Python с помощью Pandas.

Примечание. Если вы никогда раньше не использовали Python, это руководство может оказаться непростым. Вы должны начать с веб-сайтов, чтобы изучить Python и базовые примеры Python, которые предлагает TipsMake.com.

Как загрузить данные Excel в Python с помощью Pandas

  1. Что такое панды?
  2. Установить Панды
  3. Подготовить данные Excel
  4. Напишите скрипты Python
    1. Войдите в библиотеку Python
    2. Работа с путями к файлам
    3. Извлеките данные Excel с помощью Pandas.Read_Excel ()
    4. Запустите скрипт Python
    5. Присмотритесь к объекту DataFrame!

Что такое панды?

Библиотека анализа данных Python (Pandas) — это библиотека с открытым исходным кодом для языка программирования Python, используемого для анализа и обработки данных.

Pandas загружает данные в объекты Python, называемые Dataframes, которые хранят данные в строках и столбцах, как в традиционной базе данных. После создания Dataframe им можно управлять в Python, открывая множество возможностей.

Установить Панды

Примечание. Для установки Pandas у вас должен быть Python 2.7 или выше.

Чтобы начать работать с Pandas на вашем компьютере, вам нужно будет войти в библиотеку Pandas. Если вы ищете продвинутое решение, вы можете загрузить Anaconda Python Distribution, в который интегрирован Pandas. Если вы не используете Anaconda, Pandas очень просто установить в терминал.

Pandas — это пакет PyPI, что означает, что вы можете установить его с помощью PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для Windows, Linux и многих других старых систем легко узнать, как установить PIP для Python.

После того, как вы открыли терминал, последнюю версию Pandas можно установить с помощью команды:

pip install pandas

Pandas также требует библиотеки NumPy, пожалуйста, установите эту библиотеку в командной строке:

pip install numpy

Теперь у вас установлен Pandas, и вы готовы создать свой первый DataFrame!

Подготовить данные Excel

В этом примере используйте образец набора данных: книгу Excel с именем Cars.xlsx.

Изображение 1 из Как импортировать данные Excel в сценарии Python с помощью Pandas

Этот набор данных отображает марку, стиль, цвет и год выпуска автомобилей, внесенных в таблицу. Таблица отображается в виде диапазона Excel. Панды достаточно умен, чтобы правильно читать данные.

Эта книга сохраняется в папке рабочего стола, это путь к файлу, который будет использоваться:

/Users/grant/Desktop/Cars.xlsx

Вам нужно будет знать путь к файлу книги, чтобы использовать Pandas. Начните с открытия кода Visual Studio, чтобы написать сценарий. Если у вас нет текстового редактора, в статье рекомендуется использовать Visual Studio Code или Atom Editor.

Напишите скрипты Python

Теперь у вас есть нужный текстовый редактор. Далее в статье будут объединены Python и рабочая книга Cars для создания DataFrame Pandas.

Войдите в библиотеку Python

Откройте текстовый редактор и создайте новый файл Python. Назовите его Script.py.

Чтобы работать с Pandas в скрипте, вам нужно будет ввести его в свой код. Это делается одной строкой кода:

импортировать панд как pd

Здесь пример загружает библиотеку Pandas и прикрепляет ее к переменной pd. Вы можете использовать любое имя, которое хотите, и в данном примере в настоящее время используется «pd», что означает «Панды».

Для работы с Excel с Pandas вам понадобится дополнительный объект с именем ExcelFile. ExcelFile интегрирован в экосистему Pandas, поэтому вы можете импортировать прямо из Pandas:

из панд импортировать файл Excel

Работа с путями к файлам

Чтобы предоставить Pandas доступ к книге, вам необходимо направить свой скрипт в расположение файла. Самый простой способ сделать это — указать скрипту полный путь к книге.

Вспомните путь в этом примере: /Users/grant/Desktop/Cars.xlsx

Вам понадобится этот путь к файлу, указанный в сценарии, для извлечения данных. Вместо того, чтобы ссылаться на путь внутри функции Read_Excel, сохраните код «чистым», сохранив путь в переменной:

Cars_Path = «/ Users / grant / Desktop / Cars.xlsx»

Теперь вы готовы извлекать данные с помощью функции Pandas!

Извлеките данные Excel с помощью Pandas.Read_Excel ()

С введенными Pandas и установленной переменной пути теперь вы можете использовать функции в объекте Pandas для выполнения задачи.

Функция, которую вам нужно будет использовать, называется Read_Excel. Функция Read_Excel принимает путь к файлу книги Excel и возвращает объект DataFrame с содержимым книги. Pandas устанавливает эту функцию на:

pandas.read_excel (путь)

Аргумент path — это путь к книге Cars.xlsx, и в статье в качестве строки пути указана переменная Cars_Path.

Теперь вы готовы создавать объекты DataFrame! Соберем все это вместе и поместим объект DataFrame в переменную с именем DF:

DF = pd.read_excel (Cars_Path)

Наконец, вы захотите увидеть DataFrame, поэтому распечатайте результаты. Добавьте оператор печати в конец скрипта, используя в качестве аргумента переменную DataFrame:

печать (DF)

Пора запускать скрипты в терминале!

Запустите скрипт Python

Откройте терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В этом случае у нас сразу на рабочем столе находится «Script.py». Чтобы выполнить сценарий, используйте команду python, за которой следует файл сценария:

Изображение 2: как импортировать данные Excel в сценарии Python с помощью Pandas

Python загрузит данные из Cars.xlsx в новый DataFrame и распечатает DataFrame на терминал!

Изображение 3: как импортировать данные Excel в сценарии Python с помощью Pandas

Присмотритесь к объекту DataFrame!

На первый взгляд DataFrame очень похож на обычные таблицы Excel. Это упрощает понимание Pandas DataFrame.

Заголовки помечены в верхней части набора данных, и Python заполнил строки всей информацией, считанной из книги Cars.xlsx.

Обратите внимание на крайний левый столбец, индекс, начинающийся с 0, и нумерацию столбцов. По умолчанию Pandas применяет этот индекс к DataFrame, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс создавался, вы можете добавить в код дополнительный аргумент:

DF = pd.read_excel (Cars_Path, index = False)

Установка аргумента index в значение False удаляет столбец индекса, оставляя только данные Excel.

Теперь у вас есть возможность читать данные из электронной таблицы Excel. Вы можете применять программирование на Python по своему усмотрению. Работа с Pandas — это простой способ для опытных программистов Python работать с данными, хранящимися в книгах Excel.

Простота использования Python для анализа и обработки данных — одна из многих причин, по которым Python является языком программирования будущего.

Надеюсь, у вас все получится.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *