получить текст из страницы по xpath

robisho · Ноя 10, 2020

добрый день. win7x64, python3.8. вопрос такой: при парсинге нужно выдернуть статьи со страницы, в библиотеке BeautifulSoup есть для этого метод contents( soup.find('div', {'class': 'entry-content'}).contents ), который отдает весь текст внутри указанного тега, отсекая все ненужности и скрипты. хотелось бы узнать такой же метод для xpath, чтобы можно было в aiohttp юзать. нашел похожее dom_tree.xpath('//article/descendant-or-self::text()'), но в этом случае статья получается со всем мусором внутри(скрипты js, метрики, \n, etc), короче чистить и чистить такое. может кто знает нужный метод для xpath, чтобы получалась чистая статья? спасибо.

Поиск

Поиск

получить текст из страницы по xpath

robisho

Активный пользователь