Optimizing long-range UAV detection on YOLOv8: Breaking-point distance analysis and combining adaptive tiling with AdamW optimizer

Nguyen Van Ngon; Do Thi Nhan; Chu Hai Long; Thành Đồng Phạm

doi:10.54939/1859-1043.j.mst.109.2026.154-163

Các tác giả

Nguyen Van Ngon Viện Công nghệ, Tổng cục Công nghiệp quốc phòng
Do Thi Nhan Viện Công nghệ, Tổng cục Công nghiệp quốc phòng
Chu Hai Long Viện Công nghệ, Tổng cục Công nghiệp quốc phòng
Pham Thanh Dong (Tác giả đại diện) Khoa Hàng không Vũ trụ, Học viện Kỹ thuật Quân sự

DOI:

https://doi.org/10.54939/1859-1043.j.mst.109.2026.154-163

Từ khóa:

UAV; Phát hiện đối tượng nhỏ; YOLOv8; Phân mảnh ảnh; AdamW; Điểm gãy; Thị giác máy tính.

Tóm tắt

Sự gia tăng nhanh chóng của các phương tiện bay không người lái (UAV) đặt ra yêu cầu cao đối với các hệ thống giám sát và cảnh báo sớm. Trong các kịch bản phát hiện ở cự ly xa, kích thước biểu diễn của UAV trên ảnh suy giảm mạnh, gây mất mát thông tin không gian và làm giảm hiệu năng của các mô hình phát hiện dựa trên mạng nơ-ron tích chập (CNN). Bài báo đề xuất một khung phân tích định lượng liên tục nhằm mô hình hóa mối quan hệ giữa khoảng cách quan sát và hiệu năng phát hiện UAV thông qua việc giảm dần độ phân giải ảnh đầu vào. Trên cơ sở hồi quy thực nghiệm, nghiên cứu xác định điểm gãy hệ thống - ngưỡng khoảng cách mà tại đó hiệu năng phát hiện bắt đầu suy giảm mạnh và mang tính phi tuyến. Đồng thời, một giải pháp kết hợp phân mảnh ảnh thích ứng và bộ tối ưu AdamW được đề xuất nhằm đảm bảo tính ổn định huấn luyện và nâng cao hiệu năng trong kịch bản tầm xa. Kết quả thực nghiệm trên mô hình YOLOv8s cho thấy phương pháp đề xuất cải thiện mAP@0.5 trong kịch bản cự ly xa lên tới +24.9%, đồng thời loại bỏ hiện tượng mất ổn định số học khi huấn luyện trên dữ liệu phân mảnh. Phân tích hồi quy xác định điểm gãy hệ thống tại D_c ≈ 2.5, cung cấp cơ sở định lượng cho việc kích hoạt xử lý ảnh thích ứng trong triển khai thực tế trên các nền tảng tính toán hạn chế.

Tài liệu tham khảo

[1]. G. Jocher, A. Chaurasia, J. Kwon, “Ultralytics YOLOv8”, GitHub Repository, (2023).

[2]. Loshchilov, F. Hutter, “Decoupled Weight Decay Regularization”, International Conference on Learning Representations (ICLR), (2019).

[3]. F. Akyon et al., “Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection”, IEEE International Conference on Image Processing (ICIP), pp. 966–970, (2022). DOI: https://doi.org/10.1109/ICIP46576.2022.9897990

[4]. Y. Liu et al., “Deep Learning for Small Object Detection: A Survey”, IEEE Transactions on Pattern Analysis and Machine Intelligence, (2020).

[5]. J. Redmon et al., “You Only Look Once: Unified, Real-Time Object Detection”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779–788, (2016). DOI: https://doi.org/10.1109/CVPR.2016.91

[6]. S. Ren, K. He, R. Girshick, J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, Advances in Neural Information Processing Systems (NeurIPS), (2015).

[7]. Z. Ge et al., “YOLOX: Exceeding YOLO Series in 2021”, arXiv:2107.08430, (2021).

[8]. G. Jocher et al., “YOLOv5 by Ultralytics”, GitHub Repository, (2020).

[9]. Wang et al., “YOLOv10: Real-Time End-to-End Object Detection”, arXiv:2405.14458, (2024).

[10]. N. Carion et al., “End-to-End Object Detection with Transformers”, European Conference on Computer Vision (ECCV), pp. 213–229, (2020). DOI: https://doi.org/10.1007/978-3-030-58452-8_13

[11]. Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, IEEE/CVF International Conference on Computer Vision (ICCV), pp. 10012–10022, (2021). DOI: https://doi.org/10.1109/ICCV48922.2021.00986

[12]. J. Wang et al., “A Normalized Gaussian Wasserstein Distance for Tiny Object Detection”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1886–1895, (2022).

[13]. R. Sapa, J. Kim, S. Lee, “SPD-Conv: Building Efficient CNNs for Small Object Detection”, arXiv:2208.03635, (2022).

[14]. T.-Y. Lin et al., “Feature Pyramid Networks for Object Detection”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2117–2125, (2017).

[15]. M. Kisantal et al., “Augmentation for Small Object Detection”, arXiv:1902.07296, (2019). DOI: https://doi.org/10.5121/csit.2019.91713

[16]. P. Zhu et al., “Vision Meets Drones: A Challenge”, arXiv:2001.06303, (2020).

[17]. D. Du et al., “The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking”, European Conference on Computer Vision (ECCV), pp. 370–386, (2018).

[18]. X. Yu et al., “Scale Match for Tiny Person Detection”, IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 1257–1266, (2020).

[19]. H. Zhang et al., “Context-Aware Learning for Small Object Detection”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 6, pp. 3671–3684, (2022). DOI: https://doi.org/10.1109/TCSVT.2022.3183641

[20]. C. Chen et al., “Optimization for Small Object Detection in UAV Images based on Improved YOLOv7”, Drones, vol. 7, no. 2, p. 87, (2023).

Tối ưu hóa phát hiện UAV tầm xa trên YOLOv8: Phân tích điểm gãy theo khoảng cách và huấn luyện ổn định với phân mảnh thích ứng

Các tác giả

DOI:

Từ khóa:

Tóm tắt

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

ISSN: 1859-1043

Ngôn ngữ

Gửi bài mới

Indexed by

Thông tin

Visitors

GTM