PDFminer во время конвертации выводит нечитаемый текст

Gromila131

Новичок
Пользователь
Авг 3, 2024
2
0
1
Необходимо конвертировать текст из PDF в TXT. Пытаюсь сделать это через pdfminer. Пробывал и другие библиотеки. Но все безуспешно.
Как могу решить эту задачу

Python:
import pdfminer.high_level

with open ('2.pdf', 'rb') as file:
     file1 = open (r'2.txt', 'a+')
     pdfminer.high_level.extract_text_to_fp(file, file1)
     file1.close()
 

Вложения

  • 2.txt
    15,3 КБ · Просмотры: 1
  • 2.pdf
    91 КБ · Просмотры: 4

PYDEV

Пользователь
Пользователь
Авг 31, 2023
62
15
8
думаю тут надо юзать модуль re.
 

4olshoy_blen

Популярный
Пользователь
Ноя 13, 2022
405
113
43
Как могу решить эту задачу
Например, воспользоваться онлайн-сервисом
 

Gromila131

Новичок
Пользователь
Авг 3, 2024
2
0
1
Например, воспользоваться онлайн-сервисом
Сейчас так и делаю. Но хочу ее максимально автоматизировать

Я пытаюсь написать программу, необходимую для анализа продаж, которая каждый месяц будет скачивать ПДФ файл с информацией, анализировать ее и после этого выводить статистику продаж в пользовательский интерфейс.Сейчас могу вывести информацию по ключевому слову из TXT в таблицу. Кину сюда код, возможно кому-то пригодится


Python:
from openpyxl import Workbook, load_workbook

pd_txt = 'obj59216-pd30-000303 (2).txt'


#ко ключевому слову находит нужную строку и выводит информацию со следущей
 with open(pd_txt) as text_file:
        for num, line in enumerate(text_file, 1):
            if '19.7.1.1.1.1' in line:
                sold_apartments=int(num+1)
                print("Квартир продано:")
                f = open(pd_txt)
                lines = f.readlines()
                SOLD_APARTMENTS = (lines[sold_apartments])
                print(lines[sold_apartments])
                f.close()
                
                

    
    
     existing_file = 'excel1.xlsx'
 
    new_data = [SOLD_APARTMENTS]
    wb = load_workbook(existing_file)
    ws = wb.active #здесь я выбираю на какой лист будет внесена информация
    for row in new_data:
        ws.append(row)
    wb.save(existing_file)
 

Форум IT Специалистов