Как извлечь кусок из текста по названию пункта
Решаю такую задачу
У меня есть большой тренировочный набор данных, где содержится:
- ID документа
- Текст документа
А так же, название оного из двух пунктов, к которому он относится:
"обеспечение исполнения контракта" или "обеспечение гарантийных обязательств",
Это входные данные.
На выходе нужно получить предложение из текста и номер начала и конца этого текста.
Вот пример такого обучающего набора данных
id документа - 372681698
текст документа -Извещение о проведении ЗАПРОСА КОТИРОВОК в электронной форме, участниками которого могут быть только субъекты малого и среднего предпринимательства Директор ГАПОУ СО «Уральский радиотехнический колледж им. А.С. Попова» _________________ Н. Т. чиком: 11 сентября 2022 г. (23:00). Обеспечительные меры 1 Обеспечение заявки Размер обеспечения заявки: 0% от НМЦД Обеспечение не устанавливается, если начальная (максимальная) цена договора не превышает пять миллионов рублей. В случае если НМЦД превышает пять миллионов рублей, заказчик вправе установить в документации о закупке требование к обеспечению заявок в размере от 0,5 до 5% от НМЦД. Способ обеспечения заявки: 1) путем внесения денежных средств на специальный счет; 2) путем предоставления банковской гарантии. Выбор способа обеспечения заявки осуществляется участником закупки самостоятельно. Возврат участнику закупки обеспечения заявки не производится в следующих случаях: 1) уклонение или отказ участника закупки от заключения договора; 2) непредоставление или предоставление с нарушением условий, установленных Федеральным законом от 18 июля 2011 года № 223-ФЗ, до заключения договора заказчику обеспечения исполнения договора (при необходимости). 2 Обеспечение исполнения договора Размер обеспечения исполнения договора: 0% от НМЦД Заказчик вправе установить обеспечение исполнения договора в размере до 30% НМЦД, но не менее размера аванса. Способ обеспечения заявки: 1) путем внесения денежных средств; 2) путем предоставления банковской гарантии. Выбор способа обеспечения заявки осуществляется участником закупки самостоятельно. В случае частичного исполнения договора поставщик (подрядчик, исполнитель) вправе предоставить заказчику обеспечение исполнения договора, уменьшенное на размер исполненных обязательств, предусмотренных договором, взамен ранее предоставленного обеспечения исполнения договора. При этом может быть изменен способ обеспечения исполнения договора. Порядок предоставления: Документы, подтверждающие предоставление обеспечения исполнения договора, предоставляются победителем одновременно с подписанным проектом договора (без подписи заказчика) в порядке и сроки, предусмотренные Положением о закупке. Договор заключается после предоставления участником закупки, с которым заключается договор, обеспечени При расторжении договора в связи с односторонним отказом заказчика от исполнения договора по вине поставщика (подрядчика, исполнителя) заказчик вправе потребовать от поставщика (подрядчика, исполнителя) возмещения причиненных убытков.",
Название пункта - обеспечение исполнения контракта
На выходе нужно получить следующий кусок текста -
Размер обеспечения исполнения договора: 0% от НМЦД
Ну и данные начала, конца текста - 1243, 1293
Я проанализировав обучающие данные пришел к выводу, что итоговый кусок текста должен содержать полностью название пункта - все слова и в предложение должны быть точные величины - цифры, проценты, денежная стоимость
Я решаю это с помощью sklearn, но не могут понять какой метод использовать и в каком направлении двигаться.
Решаю это на Python.
Это должна быть модель, использующая машинное обучение
Прошу помочь-посоветовать как решается такая задача