парсинг

JavaScript отключен. Для полноценно использования нашего сайта, пожалуйста, включите JavaScript в своем браузере.

Парсинг pdf

Всем привет! Есть PDF файл test.pdf. Нужно спарсить из таблицы ФИО и таб номер. Накидал вот такой код, но он парсит данные не корректно. ФИО вообще не отображается : import glob import pandas as pd import tabula file = ("test.pdf") pdf_files = glob.glob('*.pdf') pdf_tables =...
- orlov1
- Тема
- Фев 2, 2023
- pdf парсинг
- Ответы: 14
- Раздел: Помощь по Python
K
Что лучше использовать для парсинга большого количества страниц

Добрый день, не подскажите что лучше использовать для парсинга более 200к страниц? Пробовал requests, но там нет возможности получать лишь часть страницы, с данными которые мне нужны. А так же selenium, но в нём нет возможности создания асинхронный работы. В заранее спасибо. Работаю с: Linux...
- Kwuuuwh
- Тема
- Дек 10, 2022
- python парсинг
- Ответы: 1
- Раздел: Помощь по Python
P
Проблема с парсингом на PyQt5

Пишу код для парсинга https://apitest.arizona-rp.com/mon/fraction/11/9. Паршу с помощью PyQt5. Вся проблема в том, что при первом вызове парсинга этого сайта код работает на отлично, но если вызвать метод 2 раза, то код выполняется только первый раз, а на второй раз выкидывает ошибку Process...
- Pewde
- Тема
- Авг 7, 2022
- pyqt5 python парсинг проблема
- Ответы: 1
- Раздел: Помощь по Python
S
Ошибка при парсинге

Сайт https://pixabay.com/ru/ Нажав "Просмотреть код элемента" я получаю код в котором одной из фотографий соответствует код <a class="link--3pfoX"...
- s591962
- Тема
- Июн 19, 2022
- пайтон парсинг
- Ответы: 5
- Раздел: Помощь по Python
При парсинге get_text() получает текст из <a> вместе с куском из тэга <em>. Как такое успешно игнорировать?

Я новичок. Есть блок типа <div class="article__title"><a href="https://random.co"><em class="story">Сюжет</em>Китайцы нашли инопланетян</a> . Строка news.append(item.find('a').get_text()) - формирует текст захватывая блок тэга <em>. Подскажите пжл, какой финт лучше использовать, что бы...
- Pit-o-nyasha
- Тема
- Июн 17, 2022
- em парсинг
- Ответы: 1
- Раздел: Помощь по Python

Верх Низ

Поиск

Поиск

парсинг

Парсинг pdf

Что лучше использовать для парсинга большого количества страниц

Проблема с парсингом на PyQt5

Ошибка при парсинге

При парсинге get_text() получает текст из <a> вместе с куском из тэга <em>. Как такое успешно игнорировать?