Парсер, интересная ситуация

metaworklawyer

Новичок
Пользователь
Янв 5, 2022
2
0
1
Добрый день, не судите строго, возможно и есть решение данной задачи.
С каталога нужно получить:
  • название компании (выполнено)
  • ссылку на карточку компании (выполнено)
  • телефон (выполнено)
  • email (выполнено)
  • сайт компании (не выполнено)
Ниже, фото карточки компании:
5656.PNG
При указании парсеру получить ссылку, на выходе ссылка на карточку компании (так как она идет первой). Как указать парсеру получить ссылку на сайт компании? Там нет класса (то есть эта ссылка: <a class="" href="https://.../ru/31700904">ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО</a> ничем не отличается от это: <a href="https://frf.com.ua/" rel="nofollow" target="_blank">https://frf.com.ua/</a>). Если собирать по тегу li, то выдает адрес, который в данном случае не нужен.
Как указать, что именно ссылку на компанию нужно получить?


Используемые библиотеки:

Python:
import requests
from bs4 import BeautifulSoup
 

stud_55

Модератор
Команда форума
Модератор
Апр 3, 2020
1 522
672
113
Как указать, что именно ссылку на компанию нужно получить?
Можно по тексту ссылки:
Python:
import requests
from bs4 import BeautifulSoup


html = requests.get('...')
soup = BeautifulSoup(html.text, 'lxml')
link = soup.find("a", text="ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО")
print(link['href'])  # ссылка на сайт компании
 
  • Мне нравится
Реакции: metaworklawyer

metaworklawyer

Новичок
Пользователь
Янв 5, 2022
2
0
1
Можно по тексту ссылки:
Python:
import requests
from bs4 import BeautifulSoup


html = requests.get('...')
soup = BeautifulSoup(html.text, 'lxml')
link = soup.find("a", text="ФАБРИКА РУКАВНЫХ ФИЛЬТРОВ, ООО")
print(link['href'])  # ссылка на сайт компании
Оно то так, но не так...
007.PNG
 

Форум IT Специалистов