Вопросы с тегом "nlp"

1

Несбалансированный набор данных, ограничение размер 60Мб, классификация по электронной почте

У меня крайне несбалансированная набора данных(приблизительно - 1:100) 1 ГБ необработанных писем, должны классифицировать эти письма в 15 категориях. Проблема у меня заключается в том, что максимальный размер файла, который будет использоваться для ...
1

Есть ли способ, чтобы 'pos_tag' значений в списке внутри словаря в Python в nltk?

У меня есть словарь Python содержит список значений. когда я пытаюсь pos_tag значения внутри списка, показывая его ошибки. Есть ли способ это исправить? RuleSet = {1: ['drafts', 'duly', 'signed', 'beneficiary', 'drawn', 'issuing', 'bank', 'quoting',...
0

Извлечение компонентов из дома-адрес

Это моя проблема я хочу, чтобы извлечь несколько компонентов из адрес. например, в. поэтому я хочу, чтобы модель, которая может извлечь номер дома, улица или дорога, если таковые имеются, уровни подрайона , города, государства, контактный. и у меня ...
0

Как получить доступ к предварительно подготовленных/Google использует модели Word2Vec без загрузки вручную модель?

Я хочу, чтобы анализировать какой-то текст на Google вычислительный сервер на облачной платформе компании Google (ГПА) с использованием модели Word2Vec. Однако, ООН-сжатый word2vec модель из https://mccormickml.com/2016/04/12/googles-pretrained-word...
0

Функция потери Pytorch с ignore_index потому что модель не сходится

Я шел через официальный Pytorch учебник об осуществлении seq2eq бота с особым вниманием. Для получения лучшего понимания я использовал различные методы для достижения подобных результатов. Один из как я думал усовершенствований стало внедрение просты...
0

Берт классификация ЛП

Извините за беспокойство, мне было интересно, я мог бы сделать классификацию PDF-файлов в разные папки в рамках файла. Например, у меня 3 счета-фактуры, папки, биографию, а папка ввод и я мог тренироваться с Берт НЛП папки CV и счета-фактуры, поэтому...
0

Как разделить строку на основе 'и' или 'или' в Python?

Предположим у меня есть строка s = СУ 3180 и (РМЖ 3200 или Су 3210). Мне нужно разбить эту строку на диаграмме дерева, таких как этот: X / \ SU 3180 () / - \ CMG 3200 SU 3210 ...
0

Какие средства для вычисления релевантности между вопрос-ответ пар?

В информационно-поисковой системе или отвечать на вопрос, то польза td-IDF или BM25, чтобы вычислить результат подобии вопрос-вопрос пары как базовый или грубое ранжирование для глубокого обучения. На общий вопрос ответить, у нас уже есть вопрос-отв...
0

Берт как услуги по классификации?

Я дорабатывались Берт на задаче классификации. Берта-как-услуга позволяет получать слово вложениями, но хотелось бы получить класс ввода текста. Проблемы лучше всего описаны здесь: https://github.com/hanxiao/bert-as-service/issues/213 Любые идеи ...
0

Пользователи продолжают говорить вещи как 'двенадцать тридцать четыре", а не " один два три четыре

Пользователи никогда не просто сказать "один два три четыре", они говорят: "двенадцать тридцать четыре" и тому подобное. У меня очень запутанная история о ABNF грамматик и ASR системы, но я просто спрошу просто: Как я могу генерировать список всех п...
3

Используя совпадений ошалевший без модели

Я хочу использовать matcher класс ошалевший на новый язык (иврит), для которых ошалевший пока нет рабочей модели. Я нашел рабочую токенизатор + поз Таггер (от Стэнфордского НЛП), но я бы предпочел ошалевший своим matcher может помочь мне сделать как...
0

Модуль не найден ошибка при импорте Pytorch_Transformers

После загрузки pytorch_transformers через анаконду и выполнить команду импорт через ноутбук Jupyter, я столкнулся несколько ошибок, связанных с недостающие модули. Я попробовал искать sacremoses, чтобы импортировать пакет через анаконду, но это дос...
1

Это условное случайное поле, на именованную сущность задачи распознавания, двунаправленный?

В настоящее время я работаю на именованную сущность задачи распознавания. Я использую алгоритм условного случайного поля, чтобы классифицировать мои отмеченные объекты. Мне было интересно, если этот алгоритм является двунаправленным, как Берт ? Особ...
3

Анализ настроений:используя набор данных (рецензии на IMDB), чтобы обучить нейронную сеть и использовать его, чтобы предсказать совершенно разных наборов данных (политические статьи)

Нам нужно проанализировать множество статей, касающихся политической нестабильности в данной стране (такие вещи, как возможность создания коалиции / выборы и т. д.). Проблема в том, что я не мог найти любой надписью наборов данных, которые могут быт...
0

CSV строки и реструктуризации колонка избежать дублирующихся записей в Python

Я новичок в Python. У меня проблема с реструктуризации данных в CSV. Я много пробовал, но пока не решить. Я хочу, чтобы избежать повторяющихся записей из столбец1, но сохранить соответствующие ценности далее все столбцы, на самом деле дает ему структ...
2

На Python регулярное выражение метод findAll() подстрок между апострофы

Поэтому мне нужно, чтобы захватить подстроки в строке, между двумя апострофы. Например у меня есть строка: the real question this movie poses is not 'who ? ' but 'why ? ' Выход в настоящее время я получаю это: [["кто ? '"], [], []] Я хочу, ...
0

атрибут 'ВНО' для проблемы()

Я пытаюсь увидеть имеющиеся проблемы (), но это дает ошибку. Можете ли вы пожалуйста, дайте мне знать, если я пропускаю что-нибудь >>> from tensor2tensor import problems Traceback (most recent call last): File "<stdin>", line 1, in ...
2

Бота использовать PDF документы как источник

Я смотрю на создание простого бота, который может использовать PDF-файл как источник. Например, на вход бота можно условия банка и условий документа и бота бы ответить на вопрос, которые имеют отношение к содержанию данного документа. Образец Q&...
1

Экстракт персональные данные субъекта от электронной почты с помощью Python, ошалевший

Мне нужно, чтобы извлечь персональную информацию о конкретном человеке из электронной почты ниже Hi Alex, Please find my personal details below, Name: Bill Smith Company: Apple Insurance number: AB 654321C Phone: +447677679999 Birth date:...
0

Как я могу построить этот вид пользовательского интерфейса, от AWS понимать медицинскую?

Я с помощью AWS машинного обучения осмыслить медицинское обслуживание для анализа клинических текстов и извлечения данных. Некоторые контексте информация (типа может): Это типа входного сигнала: Pt is 40yo mother, highschool teacher HPI : Sleepin...
0

KeyError("слово '%s' не в лексике" % слово)

После преобразования мой предсказал метки с изображения в список all_tags и позже разделения их и, наконец, хранение в word_list, который имеет все ярлыки сохранены в предложении как конструкции. Все, что я хочу сделать, это использовать Google Word...
0

Внимание создание текста в символ-символ моды

Я поиск в интернете на пару дней для любого текстового поколения модели, которая будет использовать только внимания механизмов. В трансформатор архитектуры, который произвел фурор в контексте след-в-след модели базируется исключительно на внимание м...
0

Используя ошалевший до железнодорожного аннотации вундеркинд, потери = 10012.024369196157. Но, прогноз хороший. Это нормально? Если нет, то что плохого?

Я использую просторный, чтобы обучить 10,000 аннотации вундеркинд. Ниже приведены значения, которые я поставил в НЛП.обновление() drop=0.2 sgd=optimizer losses=losses def train_spacy(data, iterations): TRAIN_DATA = data nlp = ...
0

Анализ настроений на данных клиента чата в р

Я делаю анализ настроений в R на данные чата с использованием пакета qdap. Я хочу такие чаты, чтобы быть классифицированы "это хорошее условие" быть позитивный настрой "Доброе утро", чтобы быть neutrel. С настройками по умолчанию в qdap моя 1-Я...
0

Пытаюсь создать бота, используя раса и выполнен раса-НЛУ-тренер и проблема

Я пробовал раса-НЛУ-тренер команды и он выдает следующую ошибку может кто поможет мне в этом вопросе заранее спасибо (узел:8356) UnhandledPromiseRejectionWarning: не могу обработать данные файла JSON".в JSON" синтаксис ошибка: непредвиденная лексем...