Парсер, интересная ситуация

metaworklawyer · Янв 5, 2022

Добрый день, не судите строго, возможно и есть решение данной задачи.
С каталога нужно получить:

название компании (выполнено)
ссылку на карточку компании (выполнено)
телефон (выполнено)
email (выполнено)
сайт компании (не выполнено)

Ниже, фото карточки компании:

При указании парсеру получить ссылку, на выходе ссылка на карточку компании (так как она идет первой). Как указать парсеру получить ссылку на сайт компании? Там нет класса (то есть эта ссылка: <a class="" href="https://.../ru/31700904">ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО</a> ничем не отличается от это: <a href="https://frf.com.ua/" rel="nofollow" target="_blank">https://frf.com.ua/</a>). Если собирать по тегу li, то выдает адрес, который в данном случае не нужен.
Как указать, что именно ссылку на компанию нужно получить?

Используемые библиотеки:

Python:

import requests
from bs4 import BeautifulSoup

stud_55 · Янв 5, 2022

Как указать, что именно ссылку на компанию нужно получить?

Можно по тексту ссылки:

Python:

import requests
from bs4 import BeautifulSoup


html = requests.get('...')
soup = BeautifulSoup(html.text, 'lxml')
link = soup.find("a", text="ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО")
print(link['href'])  # ссылка на сайт компании

metaworklawyer · Янв 5, 2022

stud_55 сказал(а):
Можно по тексту ссылки:

Python:

import requests from bs4 import BeautifulSoup html = requests.get('...') soup = BeautifulSoup(html.text, 'lxml') link = soup.find("a", text="ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО") print(link['href']) # ссылка на сайт компании

Оно то так, но не так...

Поиск

Поиск

Парсер, интересная ситуация

metaworklawyer

Новичок

stud_55

Модератор

metaworklawyer

Новичок