Как настроить сохранение файла html если в нём нет определённых значений?

Zerproter · Фев 24, 2022

В html файле есть код :

HTML:

<div class="row py-3 text-gold">
                <div class="col-6 text-right">Ranked Duo</div>
                <div class="col-6 text-left">23 hours ago</div>
            </div>

Нужно конкретно из этого отрезка узнать значение что находиться в div class="col-6 text-right" (в этом случае "Ranked Duo")
И если значение не будет равно Ranked либо Ranked Duo то не сохранять html файл на компьютер.
Код сохраняющий файл выглядит вот так :

Python:

def save_battle_html(url):
    headers = {
        "accept": "image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8",
        "user-agent": "Mozilla/5.0 (iPad; CPU OS 10_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/10.0 YaBrowser/20.3.2.277.11 Mobile/15E148 Safari/604.1"
    }
    req = requests.get(url, headers=headers)
    with open(f"battle_data_{server}/battle_{c}_{server}.html", "w", encoding='utf-8') as file:
        file.write(req.text)

c = 0
c1 = -1
for i in range(battles):
    print(battles_list[c])
    save_battle_html(battles_list[c])
    c += 1
    c1 += 1

(если что это часть кода а не весь он, тут нужно всё)
Есть 2 часть кода которая открывает список :

Python:

for i in range(c):
    with open(f"battle_data_{server}/battle_{c1}_{server}.html", encoding='utf-8') as file:
        text_url = file.read()
    soup_url = BeautifulSoup(text_url, "lxml")
    open_accs = soup_url.find_all('tr')
    # создание списка игр из каждого аккаунта
    for item in open_accs:
        acc_url = item.get('data-url')
        # print(f'https://{server}.wildstats.gg{acc_url}')
        battles_list += f'https://{server}.wildstats.gg{acc_url}',
        battles += 1

Желательно придумать решение на этапе скачивания т.к. в полном html коде 10 тысяч строк и это значительно замедляет обновление "базы данных xd"

Поиск

Поиск

Как настроить сохранение файла html если в нём нет определённых значений?

Zerproter

Новичок