Здравствуйте, хотел бы посчитать количество разных слов тексте, а потом вывести лист со словами и его частотой другой файл, источник содержит себе англ. и русский язык.
Прошу помочь с решение проблемы русского языка, так как программа, кажется, не считает русские слова, заранее спасибо.
# -*- coding: utf-8 -*-
import re
frequency = {}
document_text = open('test.txt', 'r')
final_list = open("list.txt", "w")
text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{1,40}\b', text_string)
match_pattern = re.findall(r'\b[a-я]{1,40}\b', text_string)
for word in match_pattern:
count = frequency.get(word, 0)
frequency[word] = count + 1
frequency_list = frequency.keys()
for words in frequency_list:
final_list.write(words, frequency[words])
print("final")
Прошу помочь с решение проблемы русского языка, так как программа, кажется, не считает русские слова, заранее спасибо.
# -*- coding: utf-8 -*-
import re
frequency = {}
document_text = open('test.txt', 'r')
final_list = open("list.txt", "w")
text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{1,40}\b', text_string)
match_pattern = re.findall(r'\b[a-я]{1,40}\b', text_string)
for word in match_pattern:
count = frequency.get(word, 0)
frequency[word] = count + 1
frequency_list = frequency.keys()
for words in frequency_list:
final_list.write(words, frequency[words])
print("final")