По мере расширения мирового патентного фонда возрастает и сложность поиска уже опубликованных патентных документов для оценки новизны технических решений – так называемого извлечения «релевантного уровня техники», «предшествующего уровня техники» или «уровня техники» из общедоступных патентных данных. Поиск такой информации связан со значительными трудностями, обусловленными её объёмом и сложностью. Результаты ряда исследований свидетельствуют о растущем масштабе использования машинной обработки естественного языка (NLP) для повышения точности и комплексности патентного поиска. Несмотря на достигнутые успехи, до сих пор не представлено системы автоматического патентного поиска, способной демонстрировать приемлемые точность и полноту. Автор статьи считает, что развитие новых, эффективных подходов к построению таких систем существенно ограничивается недостатком подготовленных наборов данных для обучения и тестирования. Автоматизированное создание наборов данных произвольной конфигурации – с учётом различных критериев отбора (документы одного или нескольких патентных ведомств; все опубликованные документы за ограниченный период времени; виды документов; классы патентной классификации и т. д.) – позволит снять ограничения и создавать наборы данных, соответствующие потребностям и целям разработчиков систем автоматического патентного поиска. В статье предложены новые подходы как к созданию наборов данных для обучения и тестирования систем автоматического патентного поиска уровня техники, так и к оценке эффективности созданных систем.