Всем доброго времени суток.
Есть такая задачка, над которой я ломаю голову уже неделю...
Чтобы понять, это судебная система есть два файла, заявление (файл 1.pdf) и решение (файл 2.doc)
Сейчас вручную берется файл "1.pdf", копируются данные должника (желтая заливка), он может быть один или два, как в примере, и вставляется в файл "2.doc" после слова "должник:" И также вставляется на страницу 2 и 3, тоже выделил желтой заливкой.
И еще действие: берется файл "1.pdf", копируется текст со 2 страницы после слов "Вынести судебный приказ о взыскании с " (выделил бирюзовым) и вставляется в файл "2.doc" после слова "Взыскать с".
Если откроете 2 файла, то поймете визуально что откуда копируется и вставляется, тупо Ctrl+C - Ctrl+V, но нужно знать откуда и куда.
И так 600 файлов....
Мой мозг как увидел это у жены на работе просто вскипел, автоматизированное действие выполняет человек целыми дням и вздумал это дело автоматизировать.
Так вот, прошу помощи, любые идеи как это организовать и подходит ли питон для этого.
Любые советы, голова есть на плечах, но не знаю с чего начинать.
Пока дошел до Pyfpdf, установил, работает, командой "pdf2txt.py 1.pdf" выводится текст из PDF, отлично, но как извлечь нужный мне и вставить в файл DOC??
Мне кажется, что в DOC будет проблема вставить, то можно вставить в PDF, конвертировать файл DOC-PDF не проблема. Сделал файл "2.pdf", это тот же файл DOC, только конвертированные, то есть можно в него вставлять данные из файла "1.pdf"
Windows 10, Python 3.9 (32bit)
Есть такая задачка, над которой я ломаю голову уже неделю...
Чтобы понять, это судебная система есть два файла, заявление (файл 1.pdf) и решение (файл 2.doc)
Сейчас вручную берется файл "1.pdf", копируются данные должника (желтая заливка), он может быть один или два, как в примере, и вставляется в файл "2.doc" после слова "должник:" И также вставляется на страницу 2 и 3, тоже выделил желтой заливкой.
И еще действие: берется файл "1.pdf", копируется текст со 2 страницы после слов "Вынести судебный приказ о взыскании с " (выделил бирюзовым) и вставляется в файл "2.doc" после слова "Взыскать с".
Если откроете 2 файла, то поймете визуально что откуда копируется и вставляется, тупо Ctrl+C - Ctrl+V, но нужно знать откуда и куда.
И так 600 файлов....
Мой мозг как увидел это у жены на работе просто вскипел, автоматизированное действие выполняет человек целыми дням и вздумал это дело автоматизировать.
Так вот, прошу помощи, любые идеи как это организовать и подходит ли питон для этого.
Любые советы, голова есть на плечах, но не знаю с чего начинать.
Пока дошел до Pyfpdf, установил, работает, командой "pdf2txt.py 1.pdf" выводится текст из PDF, отлично, но как извлечь нужный мне и вставить в файл DOC??
Мне кажется, что в DOC будет проблема вставить, то можно вставить в PDF, конвертировать файл DOC-PDF не проблема. Сделал файл "2.pdf", это тот же файл DOC, только конвертированные, то есть можно в него вставлять данные из файла "1.pdf"
Windows 10, Python 3.9 (32bit)
cffi 1.14.3
chardet 3.0.4
click 7.1.2
cryptography 3.1.1
distribute 0.7.3
fpdf 1.7.2
joblib 0.17.0
nltk 3.5
pdfminer.six 20200726
pdfminer3k 1.3.4
pip 20.2.4
ply 3.11
pycparser 2.20
PyPDF2 1.26.0
regex 2020.10.15
setuptools 49.2.1
six 1.15.0
slate 0.5.2
slate3k 0.5.3
sortedcontainers 2.2.2
tqdm 4.50.2
chardet 3.0.4
click 7.1.2
cryptography 3.1.1
distribute 0.7.3
fpdf 1.7.2
joblib 0.17.0
nltk 3.5
pdfminer.six 20200726
pdfminer3k 1.3.4
pip 20.2.4
ply 3.11
pycparser 2.20
PyPDF2 1.26.0
regex 2020.10.15
setuptools 49.2.1
six 1.15.0
slate 0.5.2
slate3k 0.5.3
sortedcontainers 2.2.2
tqdm 4.50.2