Win 7
Python 3
requests 2.23.0
Цель - спарсить ссылки объявлений на буржуйской доске объявлений, для дальнейшего парсинга уже самих объявлений.
Я просмотрел что выводит print(reg.text) и выяснилось что часть хтмл кода я не получаю. Причем в этой части находятся 6 первых объявлений и все 6 Топ объявления, которые меняются при каждом обновлении этой страницы. Почему я не могу их спарсить? И как это возможно обойти?
Python 3
requests 2.23.0
Цель - спарсить ссылки объявлений на буржуйской доске объявлений, для дальнейшего парсинга уже самих объявлений.
Python:
#Импортируем библиотеки
from bs4 import BeautifulSoup
import requests
#Глобальные переменные
url = list()
headers = {'User-Agent': 'Magik Browser'}
#Цикл перебора страниц
for page in range(1,2):
page = str(page)
#Запрос ссылки
reg = requests.get('https://www.bazaraki.com/real-estate/?type_view=card&page=' + page , headers = headers)
print(reg.text)
#Вот здесь выводится неполный хтмл код
#Получаем список тегов
soup = BeautifulSoup(reg.text, 'lxml')
nedvig = soup.find_all('a', class_ = 'mask')
#Добавляем все теги в список url
for s in nedvig:
url.append(s.get('href'))
#Выводим количество ссылок в списке
print(len(url))
Я просмотрел что выводит print(reg.text) и выяснилось что часть хтмл кода я не получаю. Причем в этой части находятся 6 первых объявлений и все 6 Топ объявления, которые меняются при каждом обновлении этой страницы. Почему я не могу их спарсить? И как это возможно обойти?