Как прочесть датасет
Всем доброго времени. В общем такая проблема. Есть задание - отфильтровать датасет, как можно лучше используя фильтры Opus. Нужно удалить строки, где неправильный перевод с английского на русский, где есть ошибки (грамматические, лексические итд). Все плохие строки удалить очень сложно, в крайнем случае отфильтровать сколько получиться.
Вот библиотека для фильтрации - https://github.com/Helsinki-NLP/OpusFilter, но на свой компец я сейчас не могу ее установить, т.к. у меня python 3.5. И беда в том как прочесть файл с таким расширением file1.en-ru.en
и file2.en-ru.ru
не используя сторонние либы???
Источник: Stack Overflow на русском