Как прочесть датасет

Рейтинг: 0Ответов: 0Опубликовано: 24.01.2023

Всем доброго времени. В общем такая проблема. Есть задание - отфильтровать датасет, как можно лучше используя фильтры Opus. Нужно удалить строки, где неправильный перевод с английского на русский, где есть ошибки (грамматические, лексические итд). Все плохие строки удалить очень сложно, в крайнем случае отфильтровать сколько получиться.

Вот библиотека для фильтрации - https://github.com/Helsinki-NLP/OpusFilter, но на свой компец я сейчас не могу ее установить, т.к. у меня python 3.5. И беда в том как прочесть файл с таким расширением file1.en-ru.en и file2.en-ru.ru не используя сторонние либы???

Ответы

Ответов пока нет.