парсинг

  1. orlov1

    Парсинг pdf

    Всем привет! Есть PDF файл test.pdf. Нужно спарсить из таблицы ФИО и таб номер. Накидал вот такой код, но он парсит данные не корректно. ФИО вообще не отображается : import glob import pandas as pd import tabula file = ("test.pdf") pdf_files = glob.glob('*.pdf') pdf_tables =...
  2. K

    Что лучше использовать для парсинга большого количества страниц

    Добрый день, не подскажите что лучше использовать для парсинга более 200к страниц? Пробовал requests, но там нет возможности получать лишь часть страницы, с данными которые мне нужны. А так же selenium, но в нём нет возможности создания асинхронный работы. В заранее спасибо. Работаю с: Linux...
  3. P

    Проблема с парсингом на PyQt5

    Пишу код для парсинга https://apitest.arizona-rp.com/mon/fraction/11/9. Паршу с помощью PyQt5. Вся проблема в том, что при первом вызове парсинга этого сайта код работает на отлично, но если вызвать метод 2 раза, то код выполняется только первый раз, а на второй раз выкидывает ошибку Process...
  4. S

    Ошибка при парсинге

    Сайт https://pixabay.com/ru/ Нажав "Просмотреть код элемента" я получаю код в котором одной из фотографий соответствует код <a class="link--3pfoX"...
  5. Pit-o-nyasha

    При парсинге get_text() получает текст из <a> вместе с куском из тэга <em>. Как такое успешно игнорировать?

    Я новичок. Есть блок типа <div class="article__title"><a href="https://random.co"><em class="story">Сюжет</em>Китайцы нашли инопланетян</a> . Строка news.append(item.find('a').get_text()) - формирует текст захватывая блок тэга <em>. Подскажите пжл, какой финт лучше использовать, что бы...

Форум IT Специалистов