Как использовать Data Miner для извлечения данных с веб-сайтов
Если вы копируете и вставляете все с веб-страниц и вручную помещаете их в электронную таблицу, вы не будете знать, что такое очистка данных (или веб-очистка). Может быть, вы знаете, что это такое, но вас не волнует идея научиться программировать, чтобы сэкономить несколько часов щелчков мышью.
В любом случае существует множество инструментов для очистки кода, которым не нужен код, чтобы помочь вам в таких ситуациях, и расширение Chrome Data Miner – один из самых интуитивно понятных вариантов. Если вам повезет, задача, которую вы выполняете, будет включена в раздел книги рецептов этого инструмента. В то время вам даже не нужно выполнять шаги, чтобы построить свою собственную формулу.
Инструкции по использованию Data Miner для извлечения данных из Интернета
- Как работает Data Miner?
- 1. Настройте Data Miner.
- 2. Загрузить данные
- 3. Проверить рецепт
- 4. Тип страницы
- 5. Создайте строку
- 6. Разделите данные на столбцы.
- 7. Сообщите Data Miner, как перейти на следующую страницу.
- 8. Сообщите Data Miner, где щелкнуть или прокрутить, чтобы загрузить данные.
- 9. Сохраните и запустите формулу.
- Если есть проблема, есть ли способ попроще?
Как работает Data Miner?
Инструмент Data Miner помогает вам удалять данные с веб-страниц и импортировать их в красиво отформатированные файлы Excel / CSV, просматривая текст загруженных вами страниц. Это означает, что вам, по крайней мере, нужно будет комфортно работать с HTML, чтобы распознавать некоторые шаблоны, но не слишком обширные знания. Продвинутые навыки HTML и / или JavaScript определенно помогут в некоторых задачах, но в большинстве случаев они не нужны. У вас также должны быть хотя бы базовые навыки работы с таблицами, чтобы вы могли быть уверены, что ваши результаты аккуратны и организованы.
1. Настройте Data Miner.
Используйте Chrome или другой браузер Chromium, а затем установите расширение. Значок расширения появится на панели инструментов. Нажав на нее, вы попадете на страницу, где можете создать учетную запись. Бесплатная версия дает вам 500 сборок (извлечение данных) в месяц, что, вероятно, будет достаточно, если только вы не делаете это каждый день.
2. Загрузить данные
Сначала перейдите на страницу, с которой хотите извлечь данные. Если у вас много страниц с данными или некоторые данные скрыты за кнопками, это нормально – есть способы справиться с этой ситуацией. На данный момент вам понадобится только типовая форма, чтобы программа знала, что искать.
3. Проверить рецепт
Затем откройте Data Miner и проверьте вкладку «Public» на наличие доступных формул. Если вы находитесь на популярном веб-сайте, возможно, кто-то другой создал процесс для получения данных, которые вы ищете. Это сэкономит вам много времени. Например, на таких веб-сайтах, как Google, Amazon и Twitter, доступно множество формул, которые помогут вам мгновенно загружать ссылки, цены, текст и другие данные. Вы можете проверить формулы, нажав кнопку «Выполнить», чтобы просмотреть предварительный просмотр рабочего листа, созданного Data Miner. Вы также можете настроить существующие формулы в соответствии со своими потребностями, нажав кнопку «Изменить».
4. Тип страницы
Если ни одна из формул вам не подходит, ничего страшного, вы можете создать свою собственную. Просто нажмите кнопку «Новый рецепт», чтобы начать.
Ваш первый выбор будет либо «Страница списка», либо «Подробная страница».
- Выберите «ListPage», если вы пытаетесь получить несколько строк данных на странице. Например, вы можете загрузить ссылку и заголовок страницы для каждого результата поиска или получить дату и содержание сообщения в ленте. Это, вероятно, наиболее распространенный тип, и он будет использован в качестве модели в этой статье. (Шаги для «Подробной страницы» в основном такие же.)
- Выберите «Подробная страница», если у вас много разной информации о чем-то на странице – например, о странице продукта, где вам нужно получить его цену, описание, ссылку и рейтинг, а затем поместите все это в строку.
5. Создайте строку
Нажмите кнопку «Найти» и перемещайте указатель мыши до тех пор, пока желтый флажок не включит все данные, необходимые для окончательной записи на листе. Например, если вы загружаете результаты поиска, вам нужно будет выделить достаточно большую область, чтобы включить заголовок, URL-адрес и описание, каждое из которых может быть помещено в отдельные столбцы на следующем шаге. Чтобы сделать выбор, нажмите клавишу Shift. Не волнуйтесь, если вы случайно отпустите. Data Miner сохраняет все процессы, даже когда вы уходите со страницы.
Затем вы захотите выбрать хотя бы одно из полей в разделе «Классы элементов» или «HTMLElementType». В идеале вы должны видеть, что выделение охватывает все элементы на странице того же типа, что и выбранный вами.
Если вы обнаружите, что селектор не включает в себя все, что вам нужно, попробуйте выбрать только один из элементов и нажать «SelectParent». Это сделает коробку больше и сможет уловить все, что вам нужно. В противном случае вам может потребоваться немного покопаться в HTML и определить нужные классы и типы элементов. В случае сомнений нажимайте «Выбрать родительский элемент», пока поле не станет максимально большим без включения нескольких записей в списке, так как это даст вам больше гибкости при выборе столбцов.
Data Miner предоставляет вам опцию «Просмотр HTML-кода элемента» внизу, а также позволяет вводить пользовательские селекторы. Если вы хотите получить все ссылки на странице с классом «продукт», вы можете просто ввести a.product. Здесь действительно помогут некоторые базовые знания HTML / CSS.
Когда вы вернетесь в главное меню строки, вы увидите опцию «Число строк» с количеством элементов, которые ваша формула создаст в электронной таблице. Если он не включает все, вам нужно будет дважды проверить свой выбор.
6. Разделите данные на столбцы.
После того, как вы выбрали все данные для своих строк, самое время сделать все, чтобы все выглядело хорошо, разделив их на разные типы столбцов. Каждый сделанный здесь выбор должен быть частью поля, которое вы выбрали для своей строки.
Чтобы создать столбец, просто введите для него имя и используйте кнопку «Найти», чтобы выбрать то, что вы хотите извлечь, так же, как вы это делали для строк. Наиболее распространенными данными, вероятно, будут текст, URL-адрес или URL-адрес изображения. Получить URL-адрес, наведя курсор на текстовые ссылки, может быть немного сложно. Возможно, вам придется нажимать «Выбрать родительский элемент», пока не достигнете уровня, на котором находится Тип элемента, т. Е. HTML-тега для ссылки.
Чтобы убедиться, что у вас есть правильный тип данных в столбце, просто щелкните значок глаза справа от имени каждого столбца, рядом с числом, показывающим, сколько столбцов вы выбрали. Это покажет вам предварительный просмотр каждой строки для этого столбца. Если что-то пойдет не так, вернитесь и исправьте теги и категории, которые вы выбрали для идентификации строк. Не бойтесь открывать программу просмотра HTML и проверять шаблоны, связанные с данными, которые вы пытаетесь получить.
7. Сообщите Data Miner, как перейти на следующую страницу.
Если у вас есть несколько страниц данных для извлечения, вы, вероятно, не захотите щелкать каждую страницу и снова запускать формулу. Чтобы решить эту проблему, просто сообщите Data Miner, где найти кнопку навигации, которую нужно нажать, чтобы перейти на следующую страницу. Будьте осторожны, не говорите ему, чтобы он щелкнул что-то вроде «Страница 2», потому что тогда он перейдет только на страницу 2. Опять же, убедитесь, что вы выбираете элемент и используете кнопку «Проверить навигацию», чтобы убедиться, что он работает.
8. Сообщите Data Miner, где щелкнуть или прокрутить, чтобы загрузить данные.
Некоторые страницы не загружают данные, пока вы не нажмете что-нибудь или не прокрутите вниз. К счастью, Data Miner тоже умеет это делать! Используйте инструмент «Найти» вверху, чтобы выбрать элемент, которым нужно управлять, затем поместите селектор в соответствующее поле и убедитесь, что он работает.
Выяснить, какой именно селектор запустит элемент или бесконечную полосу прокрутки, может быть сложно, но здесь будут полезны базовые знания HTML, а также некоторые методы проб и ошибок. Большинство вещей, которыми вам здесь нужно будет манипулировать, основаны на JavaScript, но Data Miner нужно знать только селектор CSS, связанный с действием, чтобы активировать его, поэтому вам не придется возиться с каким-либо кодом. в большинстве случаев.
Следующий шаг также позволяет вам добавить собственный JS, чтобы делать все, что вы хотите, но это довольно продвинуто и намного превышает то, что необходимо для извлечения основных данных.
9. Сохраните и запустите формулу.
Поздравляю! Теперь пора посмотреть, все ли правильно сочетается. Запустите формулу на странице, на которой вы вошли в систему, затем проверьте предварительный просмотр, чтобы убедиться, что строки и столбцы делают все, как задумано. Если нет, вы можете вернуться и отредактировать формулу.
Если все работает как обычно, вы можете использовать кнопку «Следующая страница», чтобы сообщить Data Miner, сколько страниц нужно сканировать и насколько быстро он работает (если вы сделаете это быстро, система может пометить вас. Это бот).
Когда у вас есть все необходимые данные, вы можете выбрать формат файла, который хотите использовать для загрузки.
Если есть проблема, есть ли способ попроще?
Если программа Data Miner вам не подходит, существует множество других инструментов для очистки данных, таких как ParseHub, Scraper, Octoparse, Import.io, VisualScraper и т. Д. Некоторые из этих инструментов могут иметь онлайн-интерфейс. Это немного более интуитивно понятно и автоматизировано, но вам все равно нужно знать хотя бы немного о HTML и о том, как организованы веб-сайты.
Что делает Data Miner особенно полезным для новичков, так это библиотека рецептов от сообщества, способная помочь вам избежать даже малейшей «встречи» с кодом. Это, в сочетании с щедрым ежемесячным бесплатным пакетом очистки, делает Data Miner очень хорошим инструментом практически для любых нужд.
Надеюсь, у вас все получится.