Пытаюсь выдрать текст, используя рег. выражение, под тегом
, который находится внутри определенной таблицы:
Пример вывода содержимого одно из нужных тегов:
выдает:
В общем, ключевое "MB" есть, но почему-то в моей регулярке оно не подхватывается. Я уже пробовал и так:
и эдак:
Да и просто указывал точную строку
, но также ничего не находилось.
В чем может быть проблема?
Спасибо!
P.S. Понимаю, что вместо регулярки можно принимать все теги
подряд и уже далее выполнять сравнение :
, однако очень хочется разобраться в чём может быть проблема.
HTML:
<nobr>
Python:
soup = BeautifulSoup(resArrow, 'lxml')
tbl = soup.find('tbl', id='maintbl')
for nobr in tbl.find_all('nobr', text=re.compile("MB")):
# ничего не находится
Пример вывода содержимого одно из нужных тегов:
HTML:
<nobr>1895.35 MB<br/><a href="down.php?id=555"><b>2,55 tlm</b></a></nobr>
Python:
print (nobr.getText())
1895.35 MB2,55 tlm
В общем, ключевое "MB" есть, но почему-то в моей регулярке оно не подхватывается. Я уже пробовал и так:
Python:
for nobr in tbl.find_all('nobr', text=re.compile(".*MB.*")):
Python:
for nobr in tbl.find_all('nobr', text=re.compile("\d*.\d\d\s+MB")):
Да и просто указывал точную строку
Python:
for nobr in tbl.find_all('nobr', text="1895.35 MB2,55 tlm"):
Python:
for nobr in tbl.find_all('nobr', text="1895.35 MB"):
В чем может быть проблема?
Спасибо!
P.S. Понимаю, что вместо регулярки можно принимать все теги
HTML:
<nobr>
Python:
for nobr in tbl.find_all('nobr'):
if "MB" in nobr.getText(): # так работает