Добрый день. Python3.8+win7, requests+BeautifulSoup
необходимо при парсинге собрать все текстовые составляющие в одну статью. страница имеет вид
нужно без привязки к тегу <article> собрать все тексты(и желательно img) у тега <p>, и хорошо было бы <h2> сюда же.
весь текст из р я выдергиваю
Н2 и картинки добавить в статью было бы идеально.
необходимо при парсинге собрать все текстовые составляющие в одну статью. страница имеет вид
HTML:
<article>Text
<h2>text</h2>
<p>text</p>
<p><img src="pics.jpg"></p>
<p>text
<ul>
<li>
text
</li>
text
<li>
text
</li>
</ul>
</p>
</article>
нужно без привязки к тегу <article> собрать все тексты(и желательно img) у тега <p>, и хорошо было бы <h2> сюда же.
весь текст из р я выдергиваю
Python:
article_tags = soup.find_all('p')
article = ''
for tag in article_tags:
try:
article += ''.join(tag.text) + '\n'
except Exception as e:
continue
Н2 и картинки добавить в статью было бы идеально.