Таблиця посилань
Абстрактний
1 Вступ
2 Передумови: всенаправлене виявлення 3D об'єкта
3 Попередній експеримент
3.1 Налаштування експерименту
3.2 Спостереження
3.3 Підсумок та виклики
4 Огляд Panopticus
5 Мультигранний всеспрямований виявлення 3D-об'єктів
5.1 Дизайн моделі
6 просторово-адаптивне виконання
6.1 Прогнозування ефективності
5.2 Адаптація моделі
6.2 Планування виконання
7 Реалізація
8 Оцінка
8.1 Тестовий та набір даних
8.2 Налаштування експерименту
8.3 Продуктивність
8.4 Надійність
8.5 Аналіз компонентів
8.6 Над головою
9 Сучасна робота
10 Обговорення та майбутня робота
11 Висновок та посилання
Абстрактний
Виявлення 3D об'єктів із всенаправленими видами дозволяє використовувати критичні програми для безпеки, такі як навігація мобільних роботів. Такі програми все частіше працюють на рамкових пристроях, що обмежуються ресурсами, полегшуючи надійну обробку без проблем конфіденційності або затримки мережі. Щоб забезпечити економічно ефективне розгортання, камери широко прийняті як недорога альтернатива датчиків LIDAR. Однак обчислювальне навантаження для досягнення високої продуктивності рішень на основі камери залишається складним завдяки обчислювальній обмеженням крайових пристроїв. У цій роботі ми представляємо Panopticus, ретельно розроблену систему для всенаправлених та камерних 3D-виявлення на пристроях Edge. Panopticus використовує адаптивну схему виявлення мультиграну, яка пояснює просторові складності. Щоб оптимізувати точність в межах затримки, Panopticus динамічно регулює архітектуру та операції моделі на основі наявних краю ресурсів та просторових характеристик. Ми реалізували Panopticus на трьох крайових пристроях та провели експерименти в умовах реального світу на основі набору даних про самостійне керування та нашого мобільного 360 ° набору даних камери. Результати експерименту показали, що Panopticus покращує точність на 62% в середньому, враховуючи сувору мету затримки 33 мс. Також Panopticus досягає в середньому зменшення затримки на 2,1 × порівняно з базовими лініями.
1 Вступ
Поряд із досягненням комп'ютерного зору та глибоких нейронних мереж (DNNS), виявлення 3D -об'єктів стало основним компонентом численних додатків. Наприклад, автономні транспортні засоби покладаються на точне та сприйняття в режимі реального часу об'єктів у середовищі для встановлення безпечних шляхів навігації [55]. Оскільки об'єкти можуть підходити з будь -якого напрямку, як показано на малюнку 1, важливо забезпечити сприйняття через всебічне поле зору на 360 ° (FOV). Таке всенаправлене сприйняття вимагає обробки значних кількостей даних датчиків та вимагає висококласних обчислювальних пристроїв з прискорювачами AI для обробки в режимі реального часу [47]. Нещодавно попит на мобільні додатки з використанням всенаправленого виявлення 3D -об'єктів набув широкого поширення. Роботи або безпілотники, що надають особисті послуги, такі як спостереження, можуть отримати користь від таких технологій [16]. Крім того, виявлення навколишніх перешкод та забезпечення звукових попереджень про потенційну небезпеку може допомогти людям із порушеннями зору [39, 56]. Ці персоналізовані програми повинні бути оброблені на крайньому пристрої, щоб мінімізувати проблеми конфіденційності користувачів або накладні мережі. Однак навіть остання серія Nvidia Jetson Orin [8]Пропонуючи розширену потужність обчислення Edge, має 6,7 × до 13,5 × менше тензорних ядер для прискорення ШІ порівняно з потужним A100 [9] Використовується для хмарних обчислень, які мають однакову архітектуру GPU. Крім того, додатки Edge AI повинні враховувати практичні фактори, такі як економічно ефективні розгортання. Як результат, було докладено багато зусиль для підтримки таких додатків з недорогими камерами [1, 38, 42, 58]. Зокрема, для полегшення всенаправленого сприйняття використовуються кілька камер або мобільної камери 360 °
Служби Edge AI мають широкий спектр вимог до точності та затримки. Незважаючи на останні досягнення, попередні роботи мають обмеження у підтримці як ефективності, так і точності на обмежених ресурсам пристроїв. DeepMix [18] Вив’язані складні завдання виявлення об'єктів на основі DNN на хмарний сервер для зменшення обчислювального навантаження на край пристрою. Однак розвантаження завдань на всюдинаправлене сприйняття може спричинити значну затримку зв'язку в хмарному хмарному шляху через масштабну передачу даних. Очок [37] Підтримує паралелізовану роботу на GPU Edge та NPU, але схема оптимізована для конкретного 3D-трубопроводу виявлення, що використовує датчик RGB-D з обмеженим FOV. Тим часом різні методи [1, 31, 34, 38] підвищили точність розчинів на камері, які створюють властиві труднощі через відсутність інформації про 3D -глибину. Лінія творів [29, 30, 52] зосередився на розробці DNN для посилення прогнозування глибини з зображень RGB. Крім того, прийняття масштабних ДНН, таких як хребта для вилучення функцій, що використовують зображення високої розворотної здатності, є важливим для підвищення точності [51]. Однак обробка декількох завдань DNN з обчислювальною мірою за допомогою всенаправлених входів розміщує значні обчислювальні вимоги до обмежених ресурсів Edge Devices.
У цій роботі ми пропонуємо Panopticus, систему, яка максимально збільшує точність всебічного виявлення 3D -об'єктів, відповідаючи вимогам затримки на пристроях Edge. Ми попередньо спостерігали, що 3D-детектори на основі камери мають різні можливості виявлення залежно від просторових характеристик, які визначаються різними факторами, такими як число або рух об'єктів. Ключова ідея Panopticus полягає в тому, щоб оптимально обробити перегляд камери на основі розуміння короткострокової динаміки в просторовому розподілі. Наприклад, вид камери, що містить кілька статичних та близьких об'єктів, може бути оброблений з легкою конфігурацією висновку для зменшення затримки з мінімальною втратою точності. Потім збережена запас затримки може бути використана для призначення високоефективної конфігурації висновку для складного виду, де об'єкти швидко рухаються або в далекому місці, як показано на малюнку 1
У дизайні Panopticus існує кілька викликів. По -перше, попередні моделі виявлення 3D не вдається забезпечити ефективну та динамічну схему висновку, здатну диференціювати конфігурацію висновку для кожного виду камери в одному відеокадру, наприклад, ємності хребта або використання розширеної оцінки глибини. Крім того, архітектура моделі повинна бути регульованою для розміщення різних обмежень, таких як вимоги до затримки, на заданому пристрої. По -друге, щоб максимізувати точність у вимогах затримки, для кожного подання камери необхідно вирішити оптимальну конфігурацію висновку. Для цього потрібен аналіз часу виконання обох змін у просторовому розподілі, і очікувана ефективність конфігурацій висновку.
Щоб увімкнути архітектурні та експлуатаційні коригування моделі, ми вводимо всеспрямовану модель виявлення 3D -об'єктів з декількома гілками висновку. Модель обробляє кожен вигляд, використовуючи одну з гілки з різними можливостями виявлення, що дозволяє дрібно-зернистим використанням обчислювальних ресурсів. Архітектура моделі розроблена як модульна, що дозволяє гнучкі розгортання, відокремлюючи гілку, яка порушує задані обмеження. Для другого виклику максимізації точності в межах затримки ми вводимо схему просторово-адаптивного виконання. Під час виконання схема прогнозує ефективність кожної гілки на основі очікуваного просторового розподілу навколишніх об'єктів. Оптимальні комбінації гілок та переглядів камери, які максимізують загальну оцінку точності під час досягнення мети затримки, потім вибираються для висновку. Ми реалізували Panopticus на трьох крайових пристроях з різними обчислювальними можливостями. Систему оцінювали в різних реальних середовищах, таких як міські дороги та вулиці, використовуючи публічний набори даних про автономний водіння та наш спеціальний мобільний 360 ° камери. Широкі експерименти показали, що Panopticus перевершив свої базові лінії за різноманітними сценаріями як точність виявлення, так і ефективність.
Ключові внески нашої роботи такі: •
Наскільки нам відомо, Panopticus-це перша всенаправлена та камерна система виявлення 3D-об'єктів, яка досягає як точності, так і оптимізації затримки на пристроях, що обмежуються ресурсами.
• Ми провели поглиблене дослідження для вивчення різних можливостей останніх 3D-детекторів, на які впливають різноманітні характеристики об'єктів та просторів. Panopticus забезпечує дрібнозернистий контроль над всенаправленим сприйняттям та використанням краю ресурсів, адаптуючись до різних просторових складностей у динамічних умовах.
• Ми повністю реалізували Panopticus як систему обчислювальної обчислювальної системи кінця, використовуючи обидва публічного самостійного керування
DataSet та наш мобільний 360 ° Камера-тестування, демонструючи свою пристосованість до обмежень ресурсів пристроїв Edge в різних умовах реального світу
Цей документ є