Proč je LiDAR odsouzen k zániku?

“Všichni vyhodí lidar,” řekl Musk v dubnu o rivalech s vlastním řízením.

Timothy B. Lee — 6. srpna 2019 11:45 UTC

Elon Musk: “Anyone relying on lidar is doomed.” Experts: Maybe not

komentáře čtenářů

Mnoho společností pracuje na vývoji samořídících vozů. A téměř všechny používají lidar, typ senzoru, který pomocí laserů vytváří trojrozměrnou mapu světa kolem auta.

Generální ředitel Tesly Elon Musk ale tvrdí, že tyto společnosti dělají velkou chybu.

“Všichni vysypou lidar,” řekl Elon Musk na dubnové akci předvádějící technologii samořízení Tesly. “Každý, kdo se spoléhá na lidar, je odsouzen k záhubě.”

„Lidar je opravdu zkratka,“ dodal guru Tesla AI Andrej Karpathy. „Obchází základní problémy vizuálního rozpoznávání, které je nezbytné pro autonomii. Dává to falešný pocit pokroku a v konečném důsledku je to berlička.“

V posledních týdnech jsem se na tato tvrzení ptal řady odborníků. A setkal jsem se s velkou skepsí.

„V jistém smyslu jsou všechny tyto senzory berličkami,“ argumentoval Greg McGuire, výzkumník z MCity, testovací základny pro autonomní vozidla na University of Michigan. “To je to, co stavíme jako inženýři, jako společnost – stavíme berličky.”

Samořídící auta budou muset být extrémně bezpečná a spolehlivá, aby je společnost přijala, řekl McGuire. A klíčovým principem pro vysokou spolehlivost je redundance. Každý jednotlivý senzor nakonec selže. Použití několika různých typů senzorů snižuje pravděpodobnost, že selhání jednoho senzoru povede ke katastrofě.

„Jakmile se dostanete do reálného světa a překročíte ideální podmínky, je tu tolik variability,“ tvrdí průmyslový analytik (a bývalý automobilový inženýr) Sam Abuelsamid. „Teoreticky je možné, že to můžete udělat pouze s kamerami, ale abyste měli skutečně jistotu, že systém vidí to, co si myslí, že vidí, je lepší mít jiné ortogonální režimy snímání“ – režimy snímání jako lidar.

Algoritmy pouze pro fotoaparát mohou fungovat překvapivě dobře

Elon Musk in 2015.

22. dubna, ve stejný den, kdy Tesla uspořádala autonomní akci, publikovalo trio Cornellových výzkumníků výzkumnou práci, která nabídla určitou podporu pro Muskova tvrzení o lidaru. S použitím pouze stereo kamer dosáhli počítačoví vědci průlomových výsledků na KITTI, oblíbeném standardu rozpoznávání obrazu pro samořídící systémy. Jejich nová technika přinesla výsledky mnohem lepší než dříve publikované výsledky pouze z fotoaparátu – a ne příliš pozadu za výsledky, které kombinovaly data z fotoaparátu a lidaru.

ČTĚTE VÍCE

Proč se jmenuje E36?

Bohužel, mediální pokrytí Cornellovým papírem vytvořilo zmatek ohledně toho, co výzkumníci skutečně našli. Spis Gizmoda například naznačoval, že článek byl o tom, kde jsou kamery namontovány na vozidle – téma, které v novinách ani nebylo zmíněno. (Gizmodo přepsal článek poté, co je výzkumníci kontaktovali.)

Abychom pochopili, co dokument skutečně ukázal, potřebujeme trochu pozadí o tom, jak software převádí nezpracované snímky z kamery do označeného trojrozměrného modelu okolí auta. V benchmarku KITTI je algoritmus považován za úspěšný, pokud dokáže přesně umístit trojrozměrný ohraničující rámeček kolem každého objektu ve scéně.

Software obvykle řeší tento problém ve dvou krocích. Nejprve snímky projdou algoritmem, který každému pixelu přiřadí odhad vzdálenosti. To lze provést pomocí dvojice kamer a efektu paralaxy. Výzkumníci také vyvinuli techniky pro odhad vzdálenosti pixelů pomocí jediné kamery. V obou případech druhý algoritmus používá odhady hloubky k seskupení pixelů do samostatných objektů, jako jsou auta, chodci nebo cyklisté.

Další čtení

Počítačoví vědci z Cornell se zaměřili na tento druhý krok. Většina ostatních výzkumníků pracujících pouze na kamerových přístupech reprezentovala pixelová data jako dvourozměrný obrázek, se vzdáleností jako další hodnotou pro každý pixel vedle červené, zelené a modré. Výzkumníci by pak tyto dvourozměrné obrázky typicky spouštěli prostřednictvím konvoluční neuronové sítě (viz naše podrobné vysvětlení zde), která byla pro tento úkol vyškolena.

Cornellův tým si ale uvědomil, že použití dvourozměrné reprezentace je kontraproduktivní, protože pixely, které jsou blízko u sebe ve dvourozměrném obrázku, mohou být v trojrozměrném prostoru daleko od sebe. Vozidlo v popředí se například může objevit přímo před stromem, který je vzdálený desítky metrů.

Výzkumníci z Cornell tedy převedli pixely z každého páru stereo obrázků na typ trojrozměrného mračna bodů, který je nativně generován lidarovými senzory. Výzkumníci poté vložili tato „pseudo-lidar“ data do existujících algoritmů rozpoznávání objektů, které jsou navrženy tak, aby jako vstup vzaly lidarové mračno bodů.

“Mohl byste výrazně uzavřít mezeru”

„Náš přístup dosahuje působivých vylepšení oproti stávajícímu stavu techniky v oblasti výkonu založeného na obrazech,“ napsali. V jedné verzi benchmarku KITTI („tvrdá“ 3-D detekce s IoU 0.5) byla například předchozím nejlepším výsledkem pro data pouze z kamery přesnost 30 %. Tým Cornell to dokázal zvýšit na 66 %.

ČTĚTE VÍCE

Je bezpečné řídit s rozsvícenou kontrolkou VSC?

Jinými slovy, jeden z důvodů, proč kamery plus lidar fungovaly lépe než samotné kamery, neměl nic společného s vynikající přesností měření vzdálenosti lidarem. Spíše to bylo proto, že „nativní“ datový formát vytvořený lidarem byl pro algoritmy strojového učení snazší pracovat.

„V našem článku jsme ukázali, že byste mohli výrazně zacelit mezeru“ převodem dat z kamery do mračna bodů ve stylu lidaru, řekl Kilian Weinberger, spoluautor Cornellova článku, v telefonickém rozhovoru.

Weinberger přesto připustil, že „mezi lidarem a nelidarem stále existuje slušná mezera“. Již dříve jsme zmínili, že tým Cornell dosáhl 66% přesnosti na jedné verzi benchmarku KITTI. Použití stejného algoritmu na skutečných datech mračna bodů lidaru vedlo k přesnosti 86 %.

Autor Jack Lamar, 13. května 2022

Při získávání komponentů pro automobilovou výrobu hledají výrobci OEM vysoce výkonné, cenově dostupné a spolehlivé díly, které lze spolehlivě vyrábět ve velkém množství. To platí pro každý aspekt vozidla a nejinak je tomu u lidaru. Pokud jde o náklady, spolehlivost a vyrobitelnost, je to docela intuitivní; méně pohyblivých částí znamená méně křehkých součástí, které se mohou zlomit nebo vyžadují kalibraci, a stavba senzorů se stává jednodušší a ekonomičtější. Jasnou volbou pro cenu, spolehlivost a vyrobitelnost je polovodičový lidar – snímač s jednoduchým designem a bez pohyblivých částí, který poskytuje výkon, který OEM potřebují pro funkce autonomního řízení.

V celém automobilovém průmyslu existuje shoda, že skutečná polovodičová flash architektura je konečným stavem automobilového lidaru. Mnoho lidarových společností klamavě prodává „solid-state“ architektury, které využívají mechanicky skenující zrcadla, jako dočasné řešení pro získání OEM obchodů. Ve spěchu uvedení automatizace vozidel na trh byli výrobci OEM nuceni spokojit se s těmito skenovacími, ne-solid-state lidar senzory, které jsou drahé, nespolehlivé a obtížně vyrobitelné, když skutečný polovodičový lidar je hned za rohem.

Dejte si pozor na umělce skenující lidar

Jakékoli mechanické skenování vyžaduje pohyblivé části. Označení těchto systémů za „solid-state“ zbavilo tento pojem jakéhokoli významu a zaplavilo trh skepticismem a nedůvěrou.

V posledních letech se lidarový průmysl pokusil zakrýt inherentní nevýhody mechanického skenování liberálním (a nesprávným) používáním termínu „solid-state“. Již v roce 2016 jeden poskytovatel lidaru nazval své rotující analogové senzory lidar jako „solid-state hybrid“. Jiní používají označení „hybrid“ k označení svého neotočného, ale stále mechanického skenovacího lidaru. Ještě horší je, že existuje mnoho lidí, kteří tvrdí, že jsou v pevné fázi, aniž by použili termín „hybrid“. Článek Forbes zabývající se různými skenovacími mechanismy uvedl, že „Jedním z klíčových odlišujících rysů různých polovodičových řešení je mechanismus řízení laserového paprsku. Nejčastěji používaným přístupem jsou mikro-elektro-mechanické systémy (MEMS), které efektivně využívají mikroskopická zrcadla na čipu k nasměrování laserových pulzů přes zorné pole senzoru. Ve skutečnosti existují pouze dva typy lidarů: lidar bez pohyblivých částí a lidar s pohyblivými částmi.

ČTĚTE VÍCE

Vyplatí se přestříkat auto?

Hybridní technologie je zřídkakdy požadovaným konečným stavem, ale pouze dočasným kompromisem ke splnění krátkodobého cíle. Hybridní elektrické vozidlo (HEV), jako příklad, dělá významné kompromisy na více frontách (výkon, náklady, složitost), aby dosáhlo svého cíle, kterým je zlepšení spotřeby paliva ve městě. Nadcházející šíření elektromobilů na baterie, které jsou cenově dostupné a splňují požadavky spotřebitelů na dojezd, nevyhnutelně způsobí, že HEV budou zastaralá. Při dnešním pohledu na lidarový průmysl vidíme mnoho stejných vzorů. Výrobci automobilů trpělivě čekali na to, až se lidar stane dostupným, spolehlivým a škálovatelným již roky, a vědí, že toho lze dosáhnout pouze se skutečně polovodičovou architekturou.

Takže měl Elon pravdu? Pokud automobilky uvízly na pohyblivých součástkách ve svých lidarových senzorech, pak ano, lidar je odsouzen pro spotřebitelské aplikace ADAS. Podívejme se hlouběji na to, proč.

Budoucnost je opravdová sada polovodičových senzorů

Mezi globálními výrobci OEM panuje téměř jednomyslná shoda, že lidar je nezbytnou součástí umožňující bezpečné automatizované řízení L2 – L5. Ukázalo se však, že přizpůsobení lidaru požadavkům OEM je mnohem jednodušší. Výrobci automobilů potřebují dodavatele lidarů, aby poskytovali to, co dodavatelé kamer a radarů dodávají již léta. Existují čtyři kritéria úspěchu lidaru ve velkoobjemových automobilových programech, o kterých nelze vyjednávat:

Kompromis kteréhokoli z nich by se stal osudným pro komerční úspěch platformy vozidel nové generace. Moderní automobilové kamery a radarové senzory splňují požadavky na vysoký výkon, spolehlivost a snadnou výrobu, protože se jedná o digitální, skutečné polovodičové technologie.

Automobilky mohou přestat se zabydlováním

Při pohledu na dnešní trh lidarů je jasná jedna věc: záleží na solid-state. Umělci skenování v tomto odvětví navrhují OEM řešení, která nejsou v pevné fázi, která mohou fungovat pro vývojové projekty, ale nevyhnutelně selžou při přechodu na hromadnou výrobu. Výrobci automobilů by neměli být nuceni usazovat se a plýtvat cennými zdroji výzkumu a vývoje na dočasná řešení, když skutečný lidar v pevné fázi je jedinou schůdnou cestou k zajištění bezpečného a cenově dostupného automatizovaného řízení pro masy.

Obraťte se na náš tým, abyste se dozvěděli o Digital Flash: naší skutečné solid-state platformě, která je konečným stavem automobilového lidaru.