Là một trong những ứng dụng chính trong thị giác máy tính, phát hiện đối tượng ngày càng trở nên quan trọng trong các tình huống đòi hỏi độ chính xác cao nhưng có hạn chế về tài nguyên máy tính, chẳng hạn như robot và ô tô không người lái. Thật không may, nhiều máy dò độ chính xác cao hiện đại không đáp ứng được những hạn chế này. Quan trọng hơn, các ứng dụng phát hiện đối tượng trong thế giới thực chạy trên các nền tảng khác nhau, thường yêu cầu các tài nguyên khác nhau.
Vì vậy, câu hỏi tự nhiên là làm thế nào để thiết kế các máy dò đối tượng chính xác và hiệu quả mà cũng có thể thích ứng với nhiều hạn chế về tài nguyên?
EfficientDet: Phát hiện đối tượng có thể mở rộng và hiệu quả, được thông qua tại CVPR 2020, giới thiệu một dòng máy phát hiện đối tượng có thể mở rộng và hiệu quả. Dựa trên công trình trước đây về mở rộng mạng nơ-ron (EfficientNet) và kết hợp mạng chức năng hai hướng mới (BiFPN) và các quy tắc mở rộng mới, EfficientDet đạt được độ chính xác hiện đại trong khi nhỏ hơn 9 lần và sử dụng ít tính toán hơn đáng kể so với các bộ dò hiện đại đã biết. Hình dưới đây cho thấy kiến trúc mạng chung của các mô hình.
Tối ưu hóa Kiến trúc Mô hình
Ý tưởng đằng sau EfficientDet bắt nguồn từ nỗ lực tìm kiếm các giải pháp để cải thiện hiệu quả tính toán bằng cách kiểm tra một cách có hệ thống các mô hình phát hiện hiện đại trước đây. Nói chung, máy dò đối tượng có ba thành phần chính: một xương sống trích xuất các tính năng từ một hình ảnh nhất định; một mạng lưới các đối tượng lấy nhiều cấp độ chức năng từ xương sống làm đầu vào và đầu ra một danh sách các chức năng kết hợp thể hiện các đặc điểm đặc trưng của hình ảnh; và mạng lớp / hộp cuối cùng sử dụng các hàm kết hợp để dự đoán lớp và vị trí của từng đối tượng.
Sau khi xem xét các tùy chọn thiết kế cho các thành phần này, chúng tôi đã xác định một số tối ưu hóa chính để cải thiện hiệu suất và hiệu quả. Các công cụ dò tìm trước đây chủ yếu sử dụng ResNets, ResNeXt hoặc AmoebaNet làm nền tảng, những công cụ này kém mạnh hơn hoặc có hiệu quả thấp hơn EfficientNets. Với việc triển khai đường trục EfficientNet ban đầu, có thể đạt được nhiều hiệu quả hơn nữa. Ví dụ: bắt đầu với đường cơ sở RetinaNet sử dụng đường trục ResNet-50, nghiên cứu loại bỏ của chúng tôi cho thấy rằng chỉ cần thay thế ResNet-50 bằng EfficientNet-B3 có thể cải thiện độ chính xác lên 3% trong khi giảm 20% tính toán. Một tối ưu hóa khác là nâng cao hiệu quả của các mạng chức năng. Trong khi hầu hết các trình dò tìm trước đây chỉ đơn giản sử dụng Mạng Kim tự tháp đường xuống (FPN), chúng tôi thấy rằng FPN hạ lưu vốn bị giới hạn trong luồng thông tin một chiều. Các FPN thay thế như PANet bổ sung thêm phần ngược dòng với chi phí tính toán bổ sung.
Những nỗ lực gần đây để sử dụng Tìm kiếm kiến trúc thần kinh (NAS) đã phát hiện ra một kiến trúc NAS-FPN phức tạp hơn. Tuy nhiên, trong khi cấu trúc mạng này có hiệu quả, nó cũng không thường xuyên và được tối ưu hóa cao cho một nhiệm vụ cụ thể, gây khó khăn cho việc thích ứng với các nhiệm vụ khác. Để giải quyết những vấn đề này, chúng tôi đề xuất một mạng lưới chức năng hai chiều BiFPN mới, thực hiện ý tưởng kết hợp các chức năng nhiều lớp từ FPN / PANet / NAS-FPN, cho phép thông tin được truyền cả từ trên xuống dưới và từ dưới lên trên. sử dụng kết nối thường xuyên và hiệu quả.
Để nâng cao hiệu quả hơn nữa, chúng tôi đề xuất một kỹ thuật tổng hợp chuẩn hóa nhanh mới. Các cách tiếp cận truyền thống thường xử lý tất cả các đầu vào cho FPN theo cùng một cách, ngay cả ở các độ phân giải khác nhau. Tuy nhiên, chúng tôi nhận thấy rằng các tính năng đầu vào có độ phân giải khác nhau thường đóng góp không như nhau cho các chức năng đầu ra. Do đó, chúng tôi bổ sung thêm trọng số cho mỗi chức năng đầu vào và để mạng tìm hiểu tầm quan trọng của mỗi chức năng. Chúng tôi cũng sẽ thay thế tất cả các co giật thông thường bằng các co giật ít tốn kém hơn, có thể phân tách sâu. Với sự tối ưu hóa này, BiFPN của chúng tôi cải thiện hơn nữa độ chính xác lên 4% trong khi giảm 50% chi phí tính toán.
Tối ưu hóa thứ ba liên quan đến việc đạt được sự thỏa hiệp tốt nhất giữa độ chính xác và hiệu quả trong điều kiện hạn chế tài nguyên khác nhau. Nghiên cứu trước đây của chúng tôi đã chỉ ra rằng đồng tỷ lệ chiều sâu, chiều rộng và độ phân giải của mạng có thể cải thiện đáng kể hiệu suất nhận dạng hình ảnh. Lấy cảm hứng từ ý tưởng này, chúng tôi đề xuất một phương pháp chia tỷ lệ tổng hợp mới cho các công cụ phát hiện đối tượng nhằm tăng độ phân giải / chiều sâu / chiều rộng một cách chung. Mỗi thành phần mạng, tức là mạng dự đoán xương sống, đối tượng và khối / lớp, sẽ có một hệ số tỷ lệ phức tạp kiểm soát tất cả các kích thước tỷ lệ bằng cách sử dụng các quy tắc heuristic. Cách tiếp cận này giúp dễ dàng xác định cách mở rộng mô hình bằng cách tính toán hệ số tỷ lệ cho một hạn chế tài nguyên mục tiêu nhất định.
Bằng cách kết hợp xương sống mới và BiFPN, trước tiên chúng tôi thiết kế một đường cơ sở nhỏ của EfficientDet-D0 và sau đó áp dụng tỷ lệ kết hợp để đưa EfficientDet-D1 đến D7. Mỗi mô hình nối tiếp có chi phí tính toán cao hơn, bao gồm một loạt các hạn chế về tài nguyên từ 3 tỷ FLOP đến 300 tỷ FLOPS và cung cấp độ chính xác cao hơn.
Mô hình hiệu suất
Đánh giá EfficientDet trên tập dữ liệu COCO, một tập dữ liệu tham chiếu được sử dụng rộng rãi để phát hiện đối tượng. EfficientDet-D7 đạt được độ chính xác trung bình (mAP) trung bình là 52,2, cao hơn 1,5 điểm so với mẫu hiện đại trước đó, sử dụng ít tham số hơn 4 lần và tính toán ít hơn 9,4 lần
Chúng tôi cũng so sánh kích thước thông số và độ trễ CPU / GPU giữa EfficientDet và các mô hình trước đó. Với các hạn chế tương tự về độ chính xác, các mô hình EfficientDet chạy nhanh hơn 2–4 lần trên GPU và nhanh hơn 5–11 lần trên bộ xử lý so với các bộ phát hiện khác. Trong khi các mô hình EfficientDet chủ yếu dành cho việc phát hiện đối tượng, chúng tôi cũng kiểm tra tính hiệu quả của chúng trong các tác vụ khác như phân đoạn ngữ nghĩa. Để thực hiện các nhiệm vụ phân đoạn, chúng tôi sửa đổi một chút EfficientDet-D4 bằng cách thay thế đầu phát hiện và đầu phát hiện và mất mát trong khi vẫn duy trì cùng một trục chính và BiFPN được chia tỷ lệ. Chúng tôi so sánh mô hình này với các mô hình phân đoạn hiện đại trước đây cho Pascal VOC 2012, một tập dữ liệu kiểm tra phân đoạn được sử dụng rộng rãi.
Với hiệu suất vượt trội, EfficientDet được kỳ vọng sẽ đóng vai trò là nền tảng mới cho nghiên cứu phát hiện đối tượng trong tương lai và có khả năng làm cho các mô hình phát hiện đối tượng có độ chính xác cao trở nên hữu ích trong nhiều ứng dụng trong thế giới thực. Vì vậy, đã mở tất cả các điểm ngắt của mã và mô hình được đào tạo trước trên Github.com.