자율주행 한계 극복을 위한 최신 연구 동향
자율주행 차량 기술은 sim-to-real 갭, 롱테일 시나리오 부재, convariate shift(훈련 분포와 실제 주행 분포 불일치), corner case 일반화 부족(희귀한 극단 상황에서의 일반화 한계), 딥러닝 기반 모듈의 연산 부담 등 여러 한계에 직면해 있다. 이를 위해 학계에서는 예측 모듈 기술 스택 개선, 학습 방법론 혁신, 시뮬레이션/검증 인프라 강화 등의 방향으로 다양한 해결책을 제시하고 있다.
예측 모듈 고도화: Transformer와 Diffusion 모델 도입 및 최적화
Transformer 기반 예측 모델의 활용과 효율화
예측 모듈에서는 최근 Transformer 네트워크가 도입되어 다중 행위자(주변 차량, 보행자) 상호작용과 복잡한 맥락 정보를 효과적으로 학습하고 있다. 예를 들어, Waymo의 Wayformer 연구는 지도 정보, 신호, 주변 차량 역사 등 이질적인 모달리티 데이터를 통합하기 위해 복잡한 하위 모듈 대신 하나의 attention 기반 모델로 단순화된 아키텍처를 제안했다.
Early fusion 형태로 다양한 입력을 동일한 Transformer에 결합한 이 모델은 간단한 구조에도 불구하고 Waymo의 Argoverse 예측 벤치마크에서 최고 수준의 정확도를 달성했다. 또한 효율-성능 절충을 위해 인자분해(attention factorization), 잠재 쿼리(latent query) attention 기법을 도입하여 연산량을 줄이면서도 성능을 조절했다.
이처럼 대규모 Transformer Backbone은 상호작용 학습 성능을 높였지만, 파라미터 수 증가로 계산 비용과 지연 시간이 크게 늘어나는 한계도 있다. Wayformer의 경우 attention 구조를 최적화함으로써 이러한 연산 부담 문제를 완화하려 했으나, 여전히 대형 모델의 실시간 추론 비용은 상용화의 장애로 지적된다.
Diffusion 생성 모델의 다중경로 예측 적용
Diffusion 모델은 자율주행 예측에서 다양한 미래 경로 생성을 위해 새롭게 주목받는 방법이다. 기존 GAN이나 CVAE 기반 생성 방법은 훈련 불안정성이나 표본 품질 한계 문제가 있었는데, 확률적 노이즈 제거 (Denoising Diffusion) 기법은 안정적인 학습 목표와 함께 복잡한 미래 분포를 잘 학습할 수 있어 각광받고 있다. MotionDiffuser, EfficientVitruoso와 같은 최신 연구들은 다중 모드의 미래 trajecory 분포를 학습하여 한정된 anchor 경로 집합 대신 연속적인 경로 분포를 생성할 수 있음을 보였다.
희귀 상황 및 sim-to-real 격차 대응: 시나리오 생성과 도메인 적응
GAN 기반 희귀 Corner Case 시나리오 생성
롱테일 문제를 해결하기 위해 희귀 위험 상황을 인위적으로 생성하여 학습 및 테스트 데이터에 다양성을 부여하려는 시도를 하고 있다. 특히 GAN이 현실감 있는 희귀 시나리오 만들어내는 도구로 주목받는중. 급격한 차선 끼어들기나 보행자 돌발 진입 등 드물게 나타나는 corner case 데이터의 수집은 어려우면서도 모델이 한 번도 본 적 없는 상황에서 실패할 가능성이 높다.
시뮬레이터로 이런 상황을 만들 수 있지만, 렌더링 된 가상환경과 실제 센서 데이터 사이의 도메인 차이로 인해 모델에 완벽히 같은 효과를 주지 못할 수 있다.
GAN 기반 데이터 증강은 이 격차를 줄이는 대안으로 제시된다. 예를 들어, CycleeGAN과 pix2pixHD 같은 이미징 GAN으로 실제 주행 영상에 "급차선 Cut-in" 상황을 합성해, 객체 인식 및 상황 분류 모델의 견고성을 시험했다. 이러한 GAN 기반 corner case 생성은 훈련 데이터의 long tail 부분을 보강하여 희귀 상황 대응력을 키워주는데 유의미한 성과를 냈지만 GAN 합성 데이터의 신뢰성과 유용성에 대한 검증이 필요하고, 다운스트림 모듈 성능 향상에 기여하는지 분석이 요구된다. 경우에 따라 모델이 합성 데이터에 과적합하거나 비현실적인 패턴을 학습할 우려도 지적된다.
따라서 GAN 생성 데이터의 품질을 정량 평가하고, 시각적 품질뿐 아니라 모델 학습에 유용한지를 고려한 특수 손실 함수 설계 등 개선이 시도되고 있다.
도메인 랜덤화 및 적응을 통한 sim-to-real 문제 해결
도메인 랜덤화
도메인 랜덤화란 시뮬레이터 환경의 다양한 요소들을 무작위로 변화시켜 모델을 훈련함으로써, 현실 세계가 그 랜덤 분포의 한 표본이 되도록 만드는 방법이다. 예를 들어 객체의 모양, 색상, 텍스처, 조명 조건, 센서 노이즈, 카메라 각도 등 폭넓게 무작위로 변경한 가상 이미지를 대량 생성하여 모델을 학습시키면, 특정 배경이나 조명에 과적합되지 않고 현실의 다양한 상황에 대응할 가능성이 높아진다.
OpenAI의 로봇 손 조작 실험 등에서 이 기법으로 물리 파라미터(마찰계수, 질량 등)까지 무작위화하여, 시뮬레이션과 현실 간 동역학 차이를 극복한 사례가 보고되었다.
도메인 적응
시뮬레이터 데이터 분포를 현실 분포에 가깝게 맞추는 기법이다. 예를 들어, 시뮬레이션 이미지를 스타일 변환 기법으로 실제 카메라 영상처럼 변환하거나, Feature 공간에서 어드버서리 학습으로 시뮬레이터와 실제 데이터의 분포를 정규화한다. CycleGAN 같은 모델로 GTA 게임 화면을 실제 도로 영상 스타일로 바꿔서 세그멘테이션 모델을 학습시킨 사례가 있다.
또한 최신 연구(RALAD)에서는 현실 데이터와 시뮬레이터 데이터 간 최적 운송(Optimal Transport) 기반 이미지 매칭과 Retrieval 기법을 도입하여, 현실 데이터와 유사 장면을 시뮬레이터에 삽입함으로써 갭을 좁히려 했다.
한계
랜덤화, 적응 기법 모두 현실에 강인한 모델을 얻는데 기여하고 있지만 도메인 랜덤화는 너무 광범위한 변이를 학습시키면 모델이 비현실적인 패턴까지 학습하거나 훈련시간이 증가할 위험이 있다. 반면 도메인 적응은 현실 데이터가 어느 정도 필요하며, 시뮬레이터와 현실의 구조적 차이(센서 잡음 특성, 보이지 않는 요인들)는 근본적으로 해결이 어렵다.
모방 학습, 온라인/오프라인 강화학습의 개선
모방학습에서의 Covariate Shift 완화 기법
훈련 시 본 상태 분포와 실제 주행 시 정책이 만들어내는 상태 분포가 어긋나는 현상인 covariate shift가 난제이다. 이를 완화하기 위해 가장 고전적인 해법 중 하나가 DAgger(Dataset Aggregation) 알고리즘이다. DAgger는 Ross 등 연구진이 제안한 것으로, 훈련과 실행을 반복하며 전문가의 교정 데이터를 누적 수집하는 방법이다.
초기에는 전문가 시연으로 학습하고, 정책을 실행해보면서 실패할 수 있는 새로운 상태들을 탐색하고, 각 상태에서 전문가의 올바른 액션을 추가로 라벨링 받아 훈련 데이터를 증가시킨다. 훈련-배치-데이터수집-재훈련 루프를 돌면, 시간이 갈수록 정책이 자기 자신의 분포에서 벗어난 상황을 전문가로부터 배우게 되어 성능이 개선되고 covariate shift를 줄일 수 있다. 다만 전문가의 반복 개입 비용이 크고, 실제 차량에 적용하기엔 위험하다. 이를 개선하기 위해 데이터 촬영 없이 covariate shift를 보완하는 다양한 변형 기법이 나왔다. 예로, MILO(Model-based IL)는 제한된 오프라인 데이터로 세계 모델을 학습하고, 보이지 않던 상태들을 시뮬레이션으로 생성해내어 IL 정책을 강화하는 방법이다.
최근 NVIDIA 연구는 Latent 공간 세계모델을 훈련하여, 거기서 훈련 데이터에 없던 새로운 상황들을 샘플링하고 정책이 그 상황에서 전문가 시연 분포로 복귀하는 법을 학습하게 함으로써 covariate shift를 크게 완화할 수 있음을 보였다.
한편 , 학습 데이터 자체의 편향을 줄이려는 시도도 있다. ReBAL 등으로 지칭되는 접근은 데이터셋 리밸런싱(re-balancing)을 통해 흔한 상황과 드문 상황의 샘플 가중치를 조정한다. 예를 들어 사람이 운전시 대부분 바른차선 주행 데이터가 많고 긴급 회피 동작이 적다면 위험 회피를 놓칠 수 있다. 이를 위해 희귀한 회피 행동 샘플의 중요도를 높여 재학습하거나 시뮬레이션으로 그 부분을 보충하는 등의 기법이 연구되었다. 불균형 시연 데이터는 곧 불균형한 정책으로 이어지며, 적절한 리웨이트/리샘플링으로 성능 개선은 가능하나 완벽한 해결책은 아니다.
또한 학습 중 의도적으로 노이즈를 추가하여 정책이 자기 실수에 어느 정도 robust하도록 하는 DART(Disturbances for Robust Training) 같은 방법도 제안되었다.
요약하면, IL 분야에서는 covariate shift를 줄이기 위해 전문가 개입형 데이터 증강(DAgger 계열), 모델기반 가상 상태 생성(MILO 계열), 데이터 재분배/노이즈 주입 기법 등이 제시되었고, 훈련 분포와 실배치 분포의 차이를 완화하기 위해 노력하고 있다. 완전한 해소는 어려워, IL과 RL을 혼합하여 IL로 초깃값을 얻은 뒤 RL로 미세조정하거나, 사전 학습된 세계 모델을 활용하는 등 복합적 접근이 늘고 있다.
강화학습의 롱테일 시나리오 적응 및 안전한 탐색
강화 학습은 드문 위험 상황도 인위적으로 탐색하며 배운다. 그러나 탐험-이용(exploration-exploitation) 문제와 안전성 이슈로 인해, 실세계 위험이 큰 영역에서 RL을 적용하기는 도전적이다. 이를 위해 다양하게 알고리즘을 개선해왔는데
첫째는 Safe Exploration을 위해 보수적인 업데이트나 제약 조건을 도입한 안전 강화학습 기법들이 있다. 예를 들어, Conservative Q-Learning(CQL)은 원래 오프라인 RL용으로 제안된 알고리즘이지만, 미지의 상태나 행동에 대해서는 Q값을 낮게 평가하도록 벌점을 부여함으로써 에이전트가 확실하지 않은 행동을 함부로 시도하지 않게 한다. 이렇게 보수적으로 가치함수를 학습하면, 드문 상황에서 overestimation을 피하며 안전 측면에서 안정적인 학습이 가능해진다. 반면 너무 보수적이면 학습 정체가 올 수 있는데, 이를 개선한 변형으로 Implicit Q-Learning(IQL) 등이 제안되어 보수성은 유지하되 성능은 높이는 균형을 추구한다.
둘째는 탐색 노이즈를 조절하고 위험 상황에서의 학습을 강화하는 방법이 있다. 예를 들어 보상 함수에 페널티를 추가하여 충돌이나 교통법규 위반 시 큰 음의 보상을 주어 피하도록 하거나, 위험하지만 회피를 학습해야 하는 상황에는 그 상황을 잘 처리했을 때 추가 보상을 주는 보상 리쉐이핑도 가능하다. 하지만 수동 보상 설계는 어려우므로 자동 보상 설계나 안전 기준을 학습하는 연구도 진행되고 있다.
셋째는 롱테일 상황을 효율적으로 탐색하기 위한 기법으로 커리큘럼 학습과 목표 조건부 RL이 시도된다. 난이도를 점점 높혀가는 시나리오 커리큘럼을 구성하면 에이전트가 성공 경험을 축적할 수 있다. 또한 희귀 이벤트를 발생시키는 시나리오 생성자를 별도로 두고, 에이전트가 그걸 극복하면 추가 보상을 주는 식으로 롱테일 커버리지를 높이는 강화학습도 연구되고 있다. 이러한 방법은 adversarial training의 일종으로 반복적으로 상호 발전하는 형태이다. 다만 해석 가능성 문제가 제기되기도 한다.
넷째는 메타 강화학습을 통해 새로운 환경 변화에 빠르게 적응하는 시도가 있다. 예를 들어 날씨나 차량 동적 모델이 바뀌는 상황에 대해 RL 정책이 사전 학습된 적응 메커니즘으로 몇 번 경험만으로도 보정되도록 하는 것이다. 이는 롱테일 중 환경 변화에 대한 대응력을 높이는 방향이다.
요약하면, 온라인 RL에서는 안전성 보장과 충분한 탐색 사이의 균형을 찾기 위한 알고리즘(보수적 Q 업데이트, 정책 제약 등)과 효율적인 희귀 이벤트 탐색 방법(커리큘럼, 보조 보상, adversarial scenario generation 등)이 주된 연구 방향이다. 시뮬레이터 내에서는 상당한 성과를 내었지만, 여전히 현실 차량에 적용하기에는 안전상 한계가 있어, 시뮬레이터에서 학습된 정책을 실제로 옮기기 전에 엄격한 검증이 필요하다.
오프라인 강화학습에서의 데이터 편향 완화
오프라인 강화학습은 고정된 로그 데이터만으로 정책을 학습하는 방식이다. 수천 시간의 주행 기록을 모은 후, 그 데이터를 활용해 환경과 상호작용 없이 최적 정책을 찾아내는 것이다. Offline RL의 핵심 도전은 데이터 편향이다. 주어진 데이터 분포 밖의 상태나 행동에 대해서는 신뢰할 수 있는 학습이 어렵다.
또 Behavior Cloning 초기화 + Offline RL 미세조정 같은 하이브리드 전략도 효과적이다.
시뮬레이션 및 검증 인프라의 발전: 대규모 데이터와 롱테일 커버리지 강화
데이터 중심 시뮬레이터 및 평가 프레임워크 (Waymax, WOSAC, unPlan 등)
과거에는 CARLA, LGSVL 같은 시뮬레이터에서 규정된 환경을 주로 활용했지만, 대규모 실제 주행데이터 기반의 새로운 시뮬레이션 플랫폼들이 등장하여 현실과 유사한 다양한 상황을 대량 생성하고 평가할 수 있게 되었다.
대표적으로 Waymo의 Waymax가 2023년에 공개되었다. Waymo가 구축한 Waymo Open Motion Dataset) 기반으로 설계된 경량 다중 에이전트 시뮬레이터이다. 실제 주행 로그에서 시나리오를 추출해서 에이전트들을 시뮬레이션 한다. JAX 기반으로 구현되어 객체들을 바운딩 박스와 궤적만으로 표현하여 센서 시뮬레이션 없이도 대규모 행동 연구에 활용 가능하다.
예를 들어, Waymo 데이터에 존재하는 여러 차량 궤적들을 섞어 새로운 교차로 상황을 시뮬레이션하거나, 날씨/조도 조건을 변형하여 다양한 상황을 테스트 할 수 있다. Waymax는 평가지표도 내장하고 있는데 로그 다이버전스(시뮬레이션 궤적과 실제 로그의 차이), 충돌 발생 여부, 차선 이탈 여부 등 다양한 주행 안전 지표로 시뮬레이션 결과를 평가한다.
WOSAC은 상호작용 에이전트 시뮬레이션을 겨루는 공개 챌린지로, 현실적인 자율주행 시뮬레이터 설계 및 평가 기준을 정립한 첫 사례이다. WOSAC의 목표는 자율주행 행동모델을 훈련, 평가할 수 있을 만큼 현실적인 시뮬레이터를 발전시키는 것이다.
또 다른 중요한 인프라로 unPlan이 있다. unPlan은 Motional이 21년에 발표한 학습 기반 자율주행 플래닝 벤치마크로, 1500시간 이상의 실제 주행 데이터와 그 위에서 동작하는 closed-loop 시뮬레이터를 포함한다. 처음으로 체계화된 closed-loop 플래닝 평가이다. unPlan은 경량화되어 있어 수천 가지 시나리오를 빠르게 평가 가능하고, 라이다 센서, 맵, 주행 로그 등을 종합 활용하여 실세계와 유사한 상호작용을 구현한다.
외에도 Uber ATG의 Scenic, MIT의 VISTA 등 데이터 또는 학습 주도형 시뮬레이션 환경들이 등장하고 있다. 이러한 인프라 발전은 롱테일 시나리오를 대거 확보하고 모델을 대규모 검증할 수 있도록 이어졌다.
역시 한계가 있는데 입력 데이터에 존재하는 분포만 커버하기 때문에 완전히 새로운 종류의 위험은 여전히 다루지 못한다. 그럼에도 불구하고 시뮬레이션 현실성은 지속 개선 중이며, 이러한 데이터드리븐 시뮬레이터는 연구 개발 사이클을 가속하고 롱테일 문제를 체계적으로 다룰 기반을 제공한 점에서 큰 의의가 있다.
롱테일 커버리지 확대: 합성 데이터 생성 및 위험 상황 증폭
인프라와 함께 롱테일 시나리오를 더 많이 만들어내는 데이터 증폭 기법도 중요하게 연구되고 있다. 우선 Synthetic Data Generation 관점에서 합성 센서 데이터를 대량 만드는 시도가 있다. 예를 들어, Unity, Unreal 엔진으로 사진 현실감 있는 가상 도시를 구축하고, 그 안에서 다양한 교통상황을 시나리오로 생성하여 센서 수준(이미지, LiDAR)의 합성 데이터를 모은다. 최근에는 GAN 기반으로 카메라 이미지 합성, 물리 엔진 기반으로 LiDAR 포인트 클라우드에 가상 객체 추가 등 실제-합성 혼합 데이터 생성도 활발하다. 이러한 합성 데이터는 퍼셉션 모듈(객체 인식, 세그멘테이션)의 롱테일 성능 개선에 특히 효과가 있다.
다음으로 위험 상황 증폭은 테스트 단계에서 자율주행 시스템의 한계를 적극적으로 검증하기 위한 방법이다. 일종의 시나리오 페어링, 가중 샘플링으로 볼 수 있다. 예를 들어 일반적인 테스트 주행 100만 시간당 한 번 나올까 말까 한 이벤트(e.g. 보행자 무단횡단)를 더 자주 일어나도록 시나리오 확률을 인위 조정하여 테스트하면, 한정된 테스트 시간 안에 그 이벤트에 대한 대응능력을 평가할 수 있다. 실제로 importance sampling 기법을 써서 희귀하지만 치명적인 시나리오의 발생 빈도를 높이는 연구가 이루어졌고, 이를 통해 AV 시스템의 잠재적 취약점을 효율적으로 찾아내고 보완할 수 있음을 보여줬다.
또한 Corner Case 발굴을 위한 강화학습 에이전트(교통 참가자들을 조종하여 AV를 곤란하게 만드는 adversary)를 활용해 AI가 취약 시나리오를 탐색하도록 하여 테스트 커버리지를 극대화하는 방향이다.
한계점으로, 합성 데이터나 증폭된 시나리오가 너무 극단적이어서 실제 데이터와 괴리가 있을 수 있다. GAN이 만든 장면에 비현실적 artifact가 있거나 RL adversary가 인간 운전자라면 하지 않을 터무니없는 행동을 할 수 있다. realism score를 매겨 합성 시나리오도 현실성과 다양성 둘 다 충족하도록 필터링하거나, 인간 전문가의 검토를 거쳐 유효한 corner case만 채택하는 등 보완이 이루어지고 있다.
Waymax와 WOSAC을 통해 다중 에이전트 시뮬레이션이 가능해졌고, unPlan을 통해 학습 기반 플래너의 폐루프 성능을 검증할 표준이 마련되었다. 또한 강화학습과 생성모델 기술로 커버리지 부족 영역의 데이터/시나리오를 증강하고, 롱테일 문제를 정면 돌파하려는 노력이 계속되고 있다.
읽을거리
- Curse of rarity for autonomous vehicles
- Challenges of Sensor Fusion and Perception for ADAS/AD
- From Learning to Mastery: Achieving Safe and Efficient Real-World Autonomous Driving with Human-in-the-Loop Reinforcement Learning
- AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset
- Wayformer: Motion Forecasting via Simple & Efficient Attention Networks
- Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning
- DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
- Reliability of GAN Generated Data to Train and Validate Perception Systems for Autonomous Vehicles
- Vehicle Lane-Changing scenario generation using time-series generative adversarial networks with an Adaptative parameter optimization strategy
- Domain Randomization for Sim2Real Transfer
- RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
- Simulated Interactive Agents for Autonomous Driving
- SafeShift: Safety-Informed Distribution Shifts for Robust Trajectory Prediction in Autonomous Driving
