Всем привет, у меня есть большой файл (от 150мб-5гб)
Изначально хотелось, весь файл обработать в питоне, через pandas, но к сожалению домашний ноутбук с 8гб ОЗУ не потянул и 8млн строк (out of memory), стационарный ПК с 8гб ОЗУ обработал 18млн строк за 15 мин - удаление дубликатов, удаление NAN строк, 2 фильтра и сохр результата (по-моему долго)
Решено было на питоне написать предобработку файла, а обрабатывать файл в БД
Каким образом мне можно быстро считать файл на примере 1.txt?
Тут же его обработать и перезаписать или нужно будет результат в новый файл сохранить?
Я так понимаю считать только так?
Изначально хотелось, весь файл обработать в питоне, через pandas, но к сожалению домашний ноутбук с 8гб ОЗУ не потянул и 8млн строк (out of memory), стационарный ПК с 8гб ОЗУ обработал 18млн строк за 15 мин - удаление дубликатов, удаление NAN строк, 2 фильтра и сохр результата (по-моему долго)
Решено было на питоне написать предобработку файла, а обрабатывать файл в БД
Каким образом мне можно быстро считать файл на примере 1.txt?
Тут же его обработать и перезаписать или нужно будет результат в новый файл сохранить?
Я так понимаю считать только так?
Код:
with open(...) as f:
for line in f:
<do something with line>