Russian Federation
Moscow, Moscow, Russian Federation
Russian Federation
Russian Federation
UDC 681.5
CSCSTI 67.01
Russian Library and Bibliographic Classification 308
Automating equipment fleet monitoring is a key challenge for managing large construction sites and integrated territorial development projects. This study demonstrates the feasibility of machine and deep learning methods for solving this problem. Algorithms, including neural networks, were configured to identify and track construction equipment using video streams from construction sites. A practical test of the system was conducted in the Akademichesky residential area in Yekaterinburg, one of the largest projects in Russia. The results confirmed the high accuracy of recognizing various types of construction equipment in construction conditions. The developed approach improves safety at construction sites, optimizes logistics, and manages resources, opening new opportunities for monitoring large projects.
integrated territorial development, construction equipment, fleet monitoring, neural networks, CNN
Введение
Масштаб современных строек, подобных району «Академический» в Екатеринбурге, делает традиционные методы контроля техники малоэффективными, ручной же мониторинг не может справиться с объемами данных и обеспечить оперативность. В связи с этим актуальным становится вопрос применения технологии компьютерного зрения.
Исследование существующих решений [1,2,7] выявило наиболее перспективные архитектуры нейронных сетей, а анализ работ [3-14] позволил составить сбалансированное представление о возможностях и ограничениях этих технологий.
Таким образом, к сильным сторонам нейронных сетей можно отнести возможность выявления сложных неочевидных зависимостей в данных и их обработку, включая работу с зашумленными данными и неполной информацией. При этом в отличие от линейных моделей нейронные сети эффективно моделируют сложные, нелинейные взаимосвязи, а один и тот же класс алгоритмов применим для решения разнородных задач — от классификации изображений до распознавания речи.
В то же время следует учитывать ряд ограничений применения нейронных сетей, к которым относятся следующие:
- решения нейронных сетей представляют собой «черный ящик», т.е. их интерпретация остается сложной задачей;
- риск переобучения, когда модель точно «предсказывает» результат на уже знакомых данных, но делает ошибки на новых;
- процесс обучения требует значительных вычислительных мощностей и времени;
- для достижения высокой точности необходимы большие массивы размеченных данных, подготовка которых трудоемка.
Данное исследование фокусируется на преодолении этих ограничений применительно к задаче распознавания строительной техники, а основной целью является идентификация в реальном времени строительных машин, таких как экскаваторы, бульдозеры и краны.
Материалы и методы
В основе исследования лежит анализ видеопотока с камер наблюдения, установленных на строительных площадках. Перед применением моделей использовались методы предобработки и аугментации изображений, которые повышают способность модели к обобщению и ее устойчивость к изменчивым условиям съемки (освещение, ракурс, погода).
Набор данных
Для обучения модели необходимы наборы данных. Наиболее распространенными являются датасеты машин Stanford Cars Dataset и Construction Vehicle Images:
- Stanford Cars Dataset содержит 16 185 изображений автомобилей 196 классов (марка, модель, год), однако несмотря на качество данных, набор сфокусирован на легковых автомобилях, что ограничивает его применимость для распознавания строительной спецтехники.
- Construction Vehicle Images включает более 20 000 изображений строительной техники, снятых в различных условиях.
Поскольку готовые датасеты не полностью соответствовали задачам проекта, был создан новый, специализированный набор изображений, основой для формирования которого стал датасет Construction Vehicle Images.
Пользовательский датасет, содержащий 18 283 изображения, был разделен на обучающую (16 002), валидационную (1 524) и тестовую (757) выборки.
Выбор нейронной сети
Проведенный сравнительный анализ существующих архитектур нейронных сетей (см. табл. 1) позволил выбрать нейронную сеть, оптимальную для рассматриваемых условий по критериям точности и скорости работы.
Таблица 1
Анализ существующих нейронных сетей
|
Нейронная сеть |
Область применения |
Описание |
Плюсы/ Минусы |
|---|---|---|---|
|
FNN (Feedforward Neural Network) |
Различные задачи машинного обучения |
Нейронная сеть прямого распространения, где каждый нейрон в одном слое соединен со всеми нейронами в предыдущем и следующем слоях. |
+ Гибкость в архитектуре и обучении; - Требует большого объема данных для обучения. |
|
RNN (Recurrent Neural Network) |
Обработка последовательных данных |
Рекуррентная нейронная сеть, способная обрабатывать последовательные данные с использованием обратной связи, что позволяет учитывать предыдущие состояния. |
+ Способность обрабатывать долгосрочные зависимости; - Проблемы с исчезающим/взрывающимся градиентом. |
|
CNN (Convolutional Neural Network) |
Обработка изображений и видео |
Сверточная нейронная сеть, использующая операции свертки для извлечения пространственных признаков из входных данных. |
+ Эффективное извлечение пространственных признаков; - Требует больших объемов данных и вычислительных ресурсов. |
|
DNN (Deep Neural Network) |
Различные задачи машинного обучения |
Глубокая нейронная сеть с множеством слоев, способная извлекать сложные зависимости из данных. |
+ Может обучаться на больших наборах данных и улавливать сложные зависимости; - Требует высоких вычислительных ресурсов и склонна к переобучению. |
Для решения задачи распознавания авторы использовали сверточные нейронные сети (CNN), архитектура которых ориентирована под анализ изображений. CNN самостоятельно выделяют ключевые визуальные особенности, что обеспечивает высокую точность классификации.
Методы оценки результатов
Для оценки качества работы нейронных сетей использовались такие метрики, как точность (precision), полнота (recall), достоверность (confidence) и F-мера (F1-score). Метрика precision измеряет долю положительных прогнозов, сделанных моделью, которые действительно являются положительными и вычисляется по формуле (1):
| $$P =\frac{TP}{( TP + FP)},$$ | (1) |
где TP (True Positive) — количество истинно положительных прогнозов модели, FP (False Positive) — количество ложноположительных прогнозов.
Метрика recall отражает, какую долю положительных объектов модель смогла обнаружить из всех действительно существующих положительных объектов и определяется по формуле (2):
| $$R =\frac{TP}{( TP + FN )},$$ | (2) |
где FN (False Negative) — количество ложноотрицательных прогнозов.
Метрика F-мера (F1-score) позволяет оценить качество модели классификации в машинном обучении и статистической классификации, является гармоническим среднем между точностью и полнотой, характеризуя баланс между ложноположительными и ложноотрицательными ошибками и рассчитывается по формуле (3):
| $$F1 =\frac{2×P × R}{(P+R)},$$ | (3) |
Для проведения комплексной оценки производительности моделей классификации целесообразно также использовать матрицу ошибок (рис.1), которая обеспечивает наглядное распределение прогнозов модели по категориям. Применительно к задаче, рассматриваемой в статье, матрица ошибок количественно характеризует успешные распознавания целевых объектов (TP), ошибочные срабатывания на посторонних объектах (FP), случаи необнаружения строительной техники (FN) и корректное игнорирование фоновых элементов (TN).

Рис. 1. Матрица ошибок
Используемое программное обеспечение и вычислительные ресурсы
Модели разработаны с использованием таких библиотек, как TensorFlow и PyTorch. Обучение проводилось с использованием мощных графических процессоров NVIDIA RTX 3050.
Объект апробации системы
Практическое тестирование и апробация разработанной системы мониторинга строительной техники на основе глубокого обучения были проведены на территории жилого района «Академический» в городе Екатеринбурге. Выбор данного объекта в качестве полигона для испытаний обусловлен тем, что «Академический» представляет собой один из крупнейших в России проектов комплексного развития и освоения территорий с запланированным объемом строительства свыше 2 млн кв. м. жилья, что обеспечило высокую концентрацию и разнообразие строительной техники в рамках одной площадки. Кроме того, реализация проекта ведется непрерывно с одновременным ведением работ на множестве участков, включая жилую застройку, объекты социальной и инженерной инфраструктуры, дорожное строительство, что создает сложную динамичную среду для тестирования устойчивости алгоритмов.
Результаты исследования
Обучение проводилось в течение 10 эпох (epochs). На каждом этапе записывались показатели средней точность (mean Average Precision, mAP) при различных порогах IoU (Intersection over Union). Результаты обучения в течение 10 эпох представлены в Табл. 2.
Таблица 2
Показатели точности по эпохам
|
Эпоха |
mAP50 |
mAP50-95 |
Эпоха |
mAP50 |
mAP50-95 |
|---|---|---|---|---|---|
|
1 |
0.711 |
0.417 |
6 |
0.801 |
0.65 |
|
2 |
0.705 |
0.478 |
7 |
0.886 |
0.679 |
|
3 |
0.8 |
0.563 |
8 |
0.904 |
0.707 |
|
4 |
0.826 |
0.588 |
9 |
0.911 |
0.72 |
|
5 |
0.853 |
0.629 |
10 |
0.917 |
0.737 |
Индекс mAP50 показывает среднюю точность при пороге IoU, равном 0.5, а индекс mAP50-95 показывает среднюю точность при порогах IoU от 0.5 до 0.95. IoU (Intersection over Union) — это индекс пересечения по объединению, также известный как индекс Джакарда, который используется для измерения степени перекрытия двух областей на изображении. IoU вычисляется по формуле (4) как отношение площади пересечения двух областей к площади их объединения:
| $$IoU =\frac{S_I}{S},$$ | (4) |
где SI — площадь пересечения двух областей, S — площадь объединения двух областей.
Результаты обучения показали, что средняя точность для всех классов превышает 70%.
Была построена кривая Precision-Recall (Рис. 2), которая является графическим представлением взаимосвязи между точностью и полнотой при различных порогах классификации. При этом ось Х – показывает сколько реальных положительных случаев модель правильно идентифицировала, а ось У – сколько предсказанных положительных случаев были действительно правильными.

Рис. 2. Кривая Precision-Recall
Для оценки эффективности модели использована кривая F1-Confidence, которая показывает зависимость F1-меры от достоверности прогнозов модели (Рис. 3).

Рис. 3. Кривая F1-Confidence
Кривая recall-confidence демонстрирует зависимость полноты модели от уровня достоверности прогнозов, что является ключевым фактором при диагностике ее производительности. В идеальном сценарии рост достоверности сопровождается увеличением полноты, что может свидетельствовать о способности модели эффективно идентифицировать положительные примеры при высокой уверенности, но на практике может быть обратная ситуация, когда повышение порога достоверности приводит к снижению полноты, указывая на пропуск значительного числа релевантных объектов.
В представленном исследовании показатели монотонно возрастают с увеличением достоверности до значения в 0.7, после чего отмечается спад, достигающий нулевых значений при достоверности в 0.97 для всех классов (Рис. 4), что свидетельствует о наличии оптимального диапазона достоверности для максимизации полноты модели.
Полученные результаты демонстрируют конкурентноспособную производительность предложенного авторами подхода, т.к. на 10 эпохе обучения модель достигла средней точности в 91%, что прямо указывает на ее высокую эффективность при решении задачи классификации строительной техники. Значение метрики mAP50-95 в 73,7% подтверждает устойчивость алгоритма к вариации порога пересечения, что является критически важным для практического применения.
Вместе с тем исследование характеристик precisson-recall выявило значительное влияние объема тренировочных данных на качество классификации строительных машин. Максимальные показатели precission достигнуты для класса «самосвал», который представлен в датасете больше всего.
Оптимизационный анализ на основе зависимостей F1-confidence и Recall-confidence позволил определить оптимальный порог достоверности, максимизирующий компромисс между точностью и полнотой прогнозов модели.
Таким образом, на основе проведенных экспериментов можно сделать вывод, что использование нейронных сетей, в первую очередь глубоких архитектур, демонстрирует высокую точность в распознавании строительной техники по сравнению с традиционными методами. Практическая апробация разработанной системы мониторинга была успешно проведена на территории жилого района «Академический» (г. Екатеринбург) — одного из крупнейших проектов комплексного развития территорий в России. Также следует отметить, что для достижения наилучших результатов требуются большие объемы размеченных данных и использование методов аугментации данных. Эти факторы повышают стабильность и универсальность модели, особенно в условиях реальных строительных площадок и масштабных проектов, подобных «Академическому».
Заключение
Проведенное исследование позволило сделать следующие ключевые выводы относительно применения глубокого обучения для распознавания строительной техники.
Полученные результаты подтвердили эффективность применения сверточных нейронных сетей, таких как CNN. Установлена важная зависимость между качеством распознавания и объемом информации в обучающей выборке. При этом стоит обратить внимание на методы предобработки изображений для повышения качества модели в изменчивых условиях съемки.
В рамках перспективных направлений дальнейших исследований авторами рассматривается возможность применения архитектур трансформеров и методов обучения на малом количестве данных без потери качества модели.
1. Akinin M.V., Nikiforov M.B., Taganov A.I. Neural Network Systems of Artificial Intelligence in Image Processing. RIC, Moscow, 2016. 152 p.
2. Barrett D. The Last Invention of Humanity: Artificial Intelligence and the End of the Homo Sapiens Era. Alpina Non-Fiction, Moscow, 2015. 304 p.
3. Ivanov N.A., Minnakhmetova N.N. Artificial Intelligence in Construction: New Opportunities for Analyzing the Causes of Non-Conformities and Improving Quality// Economy and Entrepreneurship. 2025. No. 6 (179). P. 1179-1182. DOI: https://doi.org/10.34925/EIP.2025.179.6.216; EDN: https://elibrary.ru/NNEBLS
4. Demkin V.I., Lukov D.K., History and Prospects of Development of Neural Networks// Bulletin of Modern Research, 2018. 6.1 (21). P. 366-368. EDN: https://elibrary.ru/XURJSX
5. Jones M.T. Programming Artificial Intelligence in Applications. Translated from English by Osipova A.I. DMK Press, Moscow, 2018. 311 p.
6. Bizina E.I., Zheleznov E.M., Grishin A.K. Application of Artificial Intelligence Technologies for Construction Monitoring Using Unmanned Aerial Vehicles//Construction and Architecture. 2025. Vol. 13. No. 2 (47). P. 2. DOI: https://doi.org/10.29039/2308-0191-2025-13-2-2-2; EDN: https://elibrary.ru/CRZWLM
7. Isakov Yu.A. Artificial Intelligence // Modern Science, 2018. 6-1, pp. 25-27.
8. Garyaev N., Garyaeva V. Big Data Technology in Construction// E3S Web of Conferences, 2019. 01032. doihttps://doi.org/10.1051/e3sconf/20199701032. EDN: https://elibrary.ru/ACSXEI
9. Kamensky D.P., Gariaev N.A. Simulation Modeling and Decision Support System // Bulletin of MGSU, 2011. 6, pp. 359-362. EDN: https://elibrary.ru/OWFSMX
10. Gariaev N.A., Ayub F., Gariaev A.N., Information Processing of Digital Models of Buildings to Identify Elements of Utility Systems with Expired Service Life // Scientific and Technical Bulletin of the Volga Region, 2022. 4, pp. 57-60. EDN: https://elibrary.ru/OEYFHX
11. Gariaeva V.V., Gariaev A.N. Information Processing in Automation of Construction Design Using Generative Design Technology // Scientific and Technical Bulletin of the Volga Region, 2022. 4, pp. 61-63. EDN: https://elibrary.ru/RWILTM
12. Gariaev N.A., Rybakova A.O. Cloud Technologies for Interaction in Design and Construction // Bulletin of Construction Equipment (BST), 2018. 4 (1004), pp. 28-31.
13. Gariaev N.A., Rybina A.V. Simulation Model of Logistics of Construction Projects // System Technologies, 2018. 1 (26), pp. 142-150. EDN: https://elibrary.ru/UQGHOZ
14. Grankin S.L., Gariaev N.A., Application of a Computing Network of Physical Objects // Scientific Review, 2015. 13, pp. 159-162. EDN: https://elibrary.ru/UMLQTV




