Парсинг сайта, кириллица в url

Alex2702

Новичок
Пользователь
Июн 26, 2020
2
1
1
Добрый день!
Невозможно получить доступ к странице, в случае если в url есть символы кириллицы. status_code выдает 404. При использовании url без кириллицы все работает.
url = 'https://zakupki.gov.ru/epz/order/extendedsearch/results.html' - все работает


Требуемый url не проходит:
https://zakupki.gov.ru/epz/order/ex...quot;zZ03731000765zZ726937zZ59723zZ7701002520

Каким образом решить проблему?
 

stud_55

Модератор
Команда форума
Модератор
Апр 3, 2020
1 522
672
113
Попробовал получить html по вашей ссылке с помощью requests:
Python:
import requests


response = requests.get('https://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&search-filter=%D0%94%D0%B0%D1%82%D0%B5+%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D1%8F&pageNumber=1&sortDirection=false&recordsPerPage=_10&showLotsInfoHidden=false&sortBy=UPDATE_DATE&fz44=on&fz223=on&af=on&ca=on&pc=on&pa=on&currencyIdGeneral=-1&customerIdOrg=11753%3A%D0%A4%D0%95%D0%94%D0%95%D0%A0%D0%90%D0%9B%D0%AC%D0%9D%D0%9E%D0%95+%D0%93%D0%9E%D0%A1%D0%A3%D0%94%D0%90%D0%A0%D0%A1%D0%A2%D0%92%D0%95%D0%9D%D0%9D%D0%9E%D0%95+%D0%91%D0%AE%D0%94%D0%96%D0%95%D0%A2%D0%9D%D0%9E%D0%95+%D0%9E%D0%91%D0%A0%D0%90%D0%97%D0%9E%D0%92%D0%90%D0%A2%D0%95%D0%9B%D0%AC%D0%9D%D0%9E%D0%95+%D0%A3%D0%A7%D0%A0%D0%95%D0%96%D0%94%D0%95%D0%9D%D0%98%D0%95+%D0%92%D0%AB%D0%A1%D0%A8%D0%95%D0%93%D0%9E+%D0%9E%D0%91%D0%A0%D0%90%D0%97%D0%9E%D0%92%D0%90%D0%9D%D0%98%D0%AF+%26quot%3B%D0%9C%D0%9E%D0%A1%D0%9A%D0%9E%D0%92%D0%A1%D0%9A%D0%98%D0%99+%D0%93%D0%9E%D0%A1%D0%A3%D0%94%D0%90%D0%A0%D0%A1%D0%A2%D0%92%D0%95%D0%9D%D0%9D%D0%AB%D0%99+%D0%A2%D0%95%D0%A5%D0%9D%D0%98%D0%A7%D0%95%D0%A1%D0%9A%D0%98%D0%99+%D0%A3%D0%9D%D0%98%D0%92%D0%95%D0%A0%D0%A1%D0%98%D0%A2%D0%95%D0%A2+%D0%98%D0%9C%D0%95%D0%9D%D0%98+%D0%9D.%D0%AD.+%D0%91%D0%90%D0%A3%D0%9C%D0%90%D0%9D%D0%90+%28%D0%9D%D0%90%D0%A6%D0%98%D0%9E%D0%9D%D0%90%D0%9B%D0%AC%D0%9D%D0%AB%D0%99+%D0%98%D0%A1%D0%A1%D0%9B%D0%95%D0%94%D0%9E%D0%92%D0%90%D0%A2%D0%95%D0%9B%D0%AC%D0%A1%D0%9A%D0%98%D0%99+%D0%A3%D0%9D%D0%98%D0%92%D0%95%D0%A0%D0%A1%D0%98%D0%A2%D0%95%D0%A2%29%26quot%3BzZ03731000765zZ726937zZ59723zZ7701002520')
print(response.text)
Html получается, но не каждый раз - видимо на сайте есть какая-то защита от повторных запросов.
 
  • Мне нравится
Реакции: Student

Alex2702

Новичок
Пользователь
Июн 26, 2020
2
1
1
Решением оказалось следующее: эмуляция браузера парсером.
 
  • Мне нравится
Реакции: Student

Форум IT Специалистов