Создание корпуса с категориями из TXT файлов с помощью библиотеки NLTK
Необходимо создать из TXT файлов корпус с категориями помощью библиотеки NLTK. Файлы разложены по папкам с названием категории, также категория указана в начале имени файла. Документация NLTK как-то не помогает, к сожалению. После создания корпуса хотелось бы решить задачу классификации.
Источник: Stack Overflow на русском