EfficientDet: Hướng Tới Phát Hiện đối Tượng Có Thể Mở Rộng Và Hiệu Quả

2025 Tác giả: Ian Gardner | [email protected]. Sửa đổi lần cuối: 2025-06-01 06:36

Là một trong những ứng dụng chính trong thị giác máy tính, phát hiện đối tượng ngày càng trở nên quan trọng trong các tình huống đòi hỏi độ chính xác cao nhưng có hạn chế về tài nguyên máy tính, chẳng hạn như robot và ô tô không người lái. Thật không may, nhiều máy dò độ chính xác cao hiện đại không đáp ứng được những hạn chế này. Quan trọng hơn, các ứng dụng phát hiện đối tượng trong thế giới thực chạy trên các nền tảng khác nhau, thường yêu cầu các tài nguyên khác nhau.

Vì vậy, câu hỏi tự nhiên là làm thế nào để thiết kế các máy dò đối tượng chính xác và hiệu quả mà cũng có thể thích ứng với nhiều hạn chế về tài nguyên?

EfficientDet: Phát hiện đối tượng có thể mở rộng và hiệu quả, được thông qua tại CVPR 2020, giới thiệu một dòng máy phát hiện đối tượng có thể mở rộng và hiệu quả. Dựa trên công trình trước đây về mở rộng mạng nơ-ron (EfficientNet) và kết hợp mạng chức năng hai hướng mới (BiFPN) và các quy tắc mở rộng mới, EfficientDet đạt được độ chính xác hiện đại trong khi nhỏ hơn 9 lần và sử dụng ít tính toán hơn đáng kể so với các bộ dò hiện đại đã biết. Hình dưới đây cho thấy kiến trúc mạng chung của các mô hình.

Tối ưu hóa Kiến trúc Mô hình

Ý tưởng đằng sau EfficientDet bắt nguồn từ nỗ lực tìm kiếm các giải pháp để cải thiện hiệu quả tính toán bằng cách kiểm tra một cách có hệ thống các mô hình phát hiện hiện đại trước đây. Nói chung, máy dò đối tượng có ba thành phần chính: một xương sống trích xuất các tính năng từ một hình ảnh nhất định; một mạng lưới các đối tượng lấy nhiều cấp độ chức năng từ xương sống làm đầu vào và đầu ra một danh sách các chức năng kết hợp thể hiện các đặc điểm đặc trưng của hình ảnh; và mạng lớp / hộp cuối cùng sử dụng các hàm kết hợp để dự đoán lớp và vị trí của từng đối tượng.

Sau khi xem xét các tùy chọn thiết kế cho các thành phần này, chúng tôi đã xác định một số tối ưu hóa chính để cải thiện hiệu suất và hiệu quả. Các công cụ dò tìm trước đây chủ yếu sử dụng ResNets, ResNeXt hoặc AmoebaNet làm nền tảng, những công cụ này kém mạnh hơn hoặc có hiệu quả thấp hơn EfficientNets. Với việc triển khai đường trục EfficientNet ban đầu, có thể đạt được nhiều hiệu quả hơn nữa. Ví dụ: bắt đầu với đường cơ sở RetinaNet sử dụng đường trục ResNet-50, nghiên cứu loại bỏ của chúng tôi cho thấy rằng chỉ cần thay thế ResNet-50 bằng EfficientNet-B3 có thể cải thiện độ chính xác lên 3% trong khi giảm 20% tính toán. Một tối ưu hóa khác là nâng cao hiệu quả của các mạng chức năng. Trong khi hầu hết các trình dò tìm trước đây chỉ đơn giản sử dụng Mạng Kim tự tháp đường xuống (FPN), chúng tôi thấy rằng FPN hạ lưu vốn bị giới hạn trong luồng thông tin một chiều. Các FPN thay thế như PANet bổ sung thêm phần ngược dòng với chi phí tính toán bổ sung.

Những nỗ lực gần đây để sử dụng Tìm kiếm kiến trúc thần kinh (NAS) đã phát hiện ra một kiến trúc NAS-FPN phức tạp hơn. Tuy nhiên, trong khi cấu trúc mạng này có hiệu quả, nó cũng không thường xuyên và được tối ưu hóa cao cho một nhiệm vụ cụ thể, gây khó khăn cho việc thích ứng với các nhiệm vụ khác. Để giải quyết những vấn đề này, chúng tôi đề xuất một mạng lưới chức năng hai chiều BiFPN mới, thực hiện ý tưởng kết hợp các chức năng nhiều lớp từ FPN / PANet / NAS-FPN, cho phép thông tin được truyền cả từ trên xuống dưới và từ dưới lên trên. sử dụng kết nối thường xuyên và hiệu quả.

Để nâng cao hiệu quả hơn nữa, chúng tôi đề xuất một kỹ thuật tổng hợp chuẩn hóa nhanh mới. Các cách tiếp cận truyền thống thường xử lý tất cả các đầu vào cho FPN theo cùng một cách, ngay cả ở các độ phân giải khác nhau. Tuy nhiên, chúng tôi nhận thấy rằng các tính năng đầu vào có độ phân giải khác nhau thường đóng góp không như nhau cho các chức năng đầu ra. Do đó, chúng tôi bổ sung thêm trọng số cho mỗi chức năng đầu vào và để mạng tìm hiểu tầm quan trọng của mỗi chức năng. Chúng tôi cũng sẽ thay thế tất cả các co giật thông thường bằng các co giật ít tốn kém hơn, có thể phân tách sâu. Với sự tối ưu hóa này, BiFPN của chúng tôi cải thiện hơn nữa độ chính xác lên 4% trong khi giảm 50% chi phí tính toán.

Tối ưu hóa thứ ba liên quan đến việc đạt được sự thỏa hiệp tốt nhất giữa độ chính xác và hiệu quả trong điều kiện hạn chế tài nguyên khác nhau. Nghiên cứu trước đây của chúng tôi đã chỉ ra rằng đồng tỷ lệ chiều sâu, chiều rộng và độ phân giải của mạng có thể cải thiện đáng kể hiệu suất nhận dạng hình ảnh. Lấy cảm hứng từ ý tưởng này, chúng tôi đề xuất một phương pháp chia tỷ lệ tổng hợp mới cho các công cụ phát hiện đối tượng nhằm tăng độ phân giải / chiều sâu / chiều rộng một cách chung. Mỗi thành phần mạng, tức là mạng dự đoán xương sống, đối tượng và khối / lớp, sẽ có một hệ số tỷ lệ phức tạp kiểm soát tất cả các kích thước tỷ lệ bằng cách sử dụng các quy tắc heuristic. Cách tiếp cận này giúp dễ dàng xác định cách mở rộng mô hình bằng cách tính toán hệ số tỷ lệ cho một hạn chế tài nguyên mục tiêu nhất định.

Bằng cách kết hợp xương sống mới và BiFPN, trước tiên chúng tôi thiết kế một đường cơ sở nhỏ của EfficientDet-D0 và sau đó áp dụng tỷ lệ kết hợp để đưa EfficientDet-D1 đến D7. Mỗi mô hình nối tiếp có chi phí tính toán cao hơn, bao gồm một loạt các hạn chế về tài nguyên từ 3 tỷ FLOP đến 300 tỷ FLOPS và cung cấp độ chính xác cao hơn.

Mô hình hiệu suất

Đánh giá EfficientDet trên tập dữ liệu COCO, một tập dữ liệu tham chiếu được sử dụng rộng rãi để phát hiện đối tượng. EfficientDet-D7 đạt được độ chính xác trung bình (mAP) trung bình là 52,2, cao hơn 1,5 điểm so với mẫu hiện đại trước đó, sử dụng ít tham số hơn 4 lần và tính toán ít hơn 9,4 lần

Chúng tôi cũng so sánh kích thước thông số và độ trễ CPU / GPU giữa EfficientDet và các mô hình trước đó. Với các hạn chế tương tự về độ chính xác, các mô hình EfficientDet chạy nhanh hơn 2-4 lần trên GPU và nhanh hơn 5-11 lần trên bộ xử lý so với các bộ phát hiện khác. Trong khi các mô hình EfficientDet chủ yếu dành cho việc phát hiện đối tượng, chúng tôi cũng kiểm tra tính hiệu quả của chúng trong các tác vụ khác như phân đoạn ngữ nghĩa. Để thực hiện các nhiệm vụ phân đoạn, chúng tôi sửa đổi một chút EfficientDet-D4 bằng cách thay thế đầu phát hiện và đầu phát hiện và mất mát trong khi vẫn duy trì cùng một trục chính và BiFPN được chia tỷ lệ. Chúng tôi so sánh mô hình này với các mô hình phân đoạn hiện đại trước đây cho Pascal VOC 2012, một tập dữ liệu kiểm tra phân đoạn được sử dụng rộng rãi.

Với hiệu suất vượt trội, EfficientDet được kỳ vọng sẽ đóng vai trò là nền tảng mới cho nghiên cứu phát hiện đối tượng trong tương lai và có khả năng làm cho các mô hình phát hiện đối tượng có độ chính xác cao trở nên hữu ích trong nhiều ứng dụng trong thế giới thực. Vì vậy, đã mở tất cả các điểm ngắt của mã và mô hình được đào tạo trước trên Github.com.

Đề xuất:

Cách Bảo Vệ Thiết Bị Khỏi Hiện Tượng Tăng điện

Sự gia tăng điện áp ảnh hưởng tiêu cực đến hoạt động của các thiết bị điện và không chỉ có thể gây ra sự cố của chúng mà còn có thể dẫn đến hỏa hoạn trong một số trường hợp. Để bảo vệ thiết bị, tất cả các loại thiết bị được sử dụng có thể bảo vệ thiết bị khỏi nước dâng và ngăn ngừa hậu quả tiêu cực cho thiết bị gia đình

Tôi Có Thể đánh Rơi điện Thoại đã Qua Sử Dụng ở đâu

Điện thoại di động từ lâu đã trở thành một phần không thể thiếu trong cuộc sống của xã hội hiện đại. Do nhu cầu về các thuộc tính này không ngừng tăng lên, các nhà sản xuất đang cố gắng sản xuất càng nhiều mẫu mã càng tốt, từ đó thu hút người tiêu dùng mua hàng mới

Xu Hướng 2020 Thể Hiện Trong Nội Thất R-HOME

Xu hướng thay đổi theo từng năm, và thiết kế nội thất cũng không ngoại lệ. Chúng tôi đã tìm ra những xu hướng trang trí đang ở đỉnh cao phổ biến vào năm 2020. Không có gì bí mật khi các món nội thất được lựa chọn chính xác có thể thay đổi hoàn toàn diện mạo và nhấn mạnh tính thẩm mỹ cho ngôi nhà của bạn, trong khi mỗi phòng có thể có phong cách độc đáo riêng

Làm Cách Nào Tôi Có Thể Thay đổi Nhà Cung Cấp Dịch Vụ Trong Khi Vẫn Giữ Số điện Thoại Của Mình?

Trên lãnh thổ Liên bang Nga, trên cơ sở hoàn toàn hợp pháp (luật "Về liên lạc"), có thể chuyển đổi từ nhà mạng này sang nhà mạng khác với sự hỗ trợ của chức năng lưu số điện thoại. Theo thống kê, khoảng 3 triệu thuê bao sẽ sử dụng dịch vụ sáng tạo

Tôi Có Thể Trả Lại Hoặc đổi điện Thoại Bằng Cách Nào

Mua điện thoại di động là một bước quan trọng, trong quá trình thực hiện, điều quan trọng là phải kiểm tra thiết bị trước khi đăng ký thực tế của giao dịch. Tuy nhiên, các sai sót hoặc trục trặc nhỏ có thể không được chú ý khi kiểm tra sơ qua và chỉ được tiết lộ sau đó

EfficientDet: Hướng Tới Phát Hiện đối Tượng Có Thể Mở Rộng Và Hiệu Quả

Mục lục:

Tối ưu hóa Kiến trúc Mô hình

Mô hình hiệu suất

Đề xuất:

Cách Bảo Vệ Thiết Bị Khỏi Hiện Tượng Tăng điện

Tôi Có Thể đánh Rơi điện Thoại đã Qua Sử Dụng ở đâu

Xu Hướng 2020 Thể Hiện Trong Nội Thất R-HOME

Làm Cách Nào Tôi Có Thể Thay đổi Nhà Cung Cấp Dịch Vụ Trong Khi Vẫn Giữ Số điện Thoại Của Mình?

Tôi Có Thể Trả Lại Hoặc đổi điện Thoại Bằng Cách Nào

Làm Thế Nào để Chuyển Một Tập Tin Qua Bluetooth Trong IPhone

Cách Chuyển Tiền Từ điện Thoại Của Bạn Sang Ví Yandex

Cách đặt Lại IPhone

Cách Tắt Dịch Vụ "thời Tiết" Trong Mts

Cách Tắt TV Di động

Cách Tìm Vị Trí Của Người đăng Ký Megafon

Cách Xác định Vị Trí Của Một Người Bằng Số điện Thoại Megafon

Cách Mở Khóa Thẻ SIM MTS

Làm Thế Nào để Tìm Ra Số điện Thoại Bằng Cách đăng Ký

Cách Tìm Số Nhận Dạng điện Thoại Của Bạn

Cách Chọn Bản đồ Cho Người điều Hướng

Cách Tìm Bản đồ Vệ Tinh Năm

Cách Hiển Thị Hình ảnh Trên TV

Cách Kết Nối Một Số Ngắn

Cách Chuyển Tiền Qua Mts