본문 바로가기
자율주행과 통신/자율주행 인지

자율주행 카메라 센서 기반 물체 검출 방식[YOLO,SSD,RetinaNet,Faster R-CNN,Mask R-CNN]

by 짐승 2024. 7. 4.
728x90
반응형

 

 

 

자율주행 에서 카메라 센서의 원리와 역할[CCD COMS 장단점, 카메라 캘리브레이션]

자율주행 인지파트 에서 인공지능의 역할자율주행 인지 기술의 개념[객체 추적및 예측에대한 고찰]자율주행에 사용되는 센서 종류[카메라 레이더 라이다 센서]자율주행차의 센서는 인간의 감

beast1251.tistory.com

 

 이전시간 카메라 센서의 원리와 역할에 대해서 알아보았다. 오늘은 이러한 센서를 활용하여 딥러닝 기반 물체 검출을 해보자

 

 카메라 기반 물체 검출 기술은 카메라 영상을 입력으로 받아 물체의 위치와 종류를 식별하는 기술이다. 과거에는 카메라 촬영으로 얻은 2차원 배열의 숫자 데이터가 크게 의미가 없었지만, 딥러닝 기술의 도입으로 물체 검출 기술의 성능이 크게 향상되었다.

 

 특히, CNN(Convolutional Neural Network)을 카메라 영상에 적용하여 물체의 특징을 추출하고 이를 통해 검출 정보를 획득하게 되었다. 라벨링 작업 후 딥러닝 구조를 트레이닝하여 모델을 출력하면, 물체를 포함하는 박스 좌표와 물체의 분류에 대한 확률 값을 생성할 수 있다.

딥러닝 기반 물체 검출 단계

특징 추출 단계

 신경망을 적용하여 물체에 대한 특징을 추출합니다. 이 단계에서는 물체의 위치와 종류를 동시에 판별한다. 주로 YOLO, SSD, RetinaNet과 같은 구조를 사용하여 빠르게 계산할 수 있다.

YOLO (You Only Look Once)

 YOLO는 객체 검출을 위한 딥러닝 모델 중 하나로, 전체 이미지를 한 번에 분석하여 객체를 검출하는 방법을 사용한다. 이는 검출 속도가 매우 빠르며, 실시간 객체 검출이 필요한 응용 프로그램에 적합합니다. 이미지를 SxS 그리드로 나눠서 각 그리드 셀에 대해 객체를 예측. 각 그리드 셀은 B개의 바운딩 박스와 그 박스 내 객체의 확률을 예측. CNN 기반의 단일 신경망을 통해 예측. 하는 방식이다. 모델차에는 높은 속도와 비교적 낮은 정확도가 특징이다.

SSD (Single Shot MultiBox Detector)

 SSD는 객체 검출을 한 번의 패스로 해결하는 방법으로, 다양한 크기의 특징 맵을 사용하여 여러 스케일의 객체를 동시에 검출한다. 다양한 크기의 특징 맵을 사용 하여 다양한 크기의 객체를 검출. 각 특징 맵에서 예측된 바운딩 박스와 클래스 확률을 동시에 계산. 높은 속도와 더불어 다양한 크기의 객체에 대한 우수한 성능. 다양한 aspect ratio와 크기를 가진 기본(default) 박스를 사용하는 것이 특징으로  널리 쓰이고 있다.

RetinaNet

 RetinaNet은 앵커 기반의 객체 검출 모델로, Focal Loss를 사용하여 객체 검출에서의 클래스 불균형 문제를 해결한다.

Focal Loss를 도입하여 어려운 객체를 더 많이 학습하고 쉬운 객체에 대한 가중치를 줄인다. 앵커 박스와 피라미드 구조를 사용하여 다양한 스케일과 비율의 객체를 검출. 높은 정확도와 좋은 성능을 보이며, 클래스 불균형 문제 해결에 강점을 가져 쓰는 방식이다.

정밀 검출 단계

 이전 단계에는 단순 인식에 그쳤다면 정밀 검출 단계 에서는 보다 정밀한 물체 위치를 파악하고 물체의 종류를 인식한다. 이 단계에서는 Faster R-CNN과 Mask R-CNN을 활용하여 검출 정확도를 높이며, 이러한 물체 검출 기술은 동적 개체와 정적 개체를 동시에 검출할 수 있다. 환경 변화에 따라 민감하게 반응하는 카메라를 활용하여 다양한 종류의 데이터를 수집하고, 환경 변화에 적응적으로 동작하는 검출 기술을 개발한다. 결국, 임베디드 하드웨어에서 실시간으로 물체 검출이 가능해야 이 정밀 검출 단계에 도달할 수 있다.

Faster R-CNN (Region-based Convolutional Neural Networks)

 Faster R-CNN은 R-CNN 계열 중 가장 발전된 모델로, 지역 제안 네트워크(Region Proposal Network, RPN)를 사용하여 객체 제안 영역을 빠르게 생성한다 지역 제안 네트워크(RPN)를 통해 객체 후보 영역을 생성하고 제안된 후보 영역에 대해 CNN을 적용하여 객체의 바운딩 박스와 클래스 확률을 예측한다. 물론 이러한 특징 때문에  높은 정확도와 비교적 느린 속도가 특징이다 

 

조금 더 자세하게 설명하면 두 단계의 처리를 통해 객체 검출하며 (1) RPN을 통한 영역 제안, (2) 객체 분류와 박스 회귀한다 정도로 이해하자

Mask R-CNN

Mask R-CNN은 Faster R-CNN의 확장으로, 객체 검출과 더불어 객체의 세그멘테이션 마스크도 예측한다. Faster R-CNN 구조에 세그멘테이션 분기를 추가하여 객체의 마스크를 예측하고 객체의 바운딩 박스, 클래스, 마스크를 동시에 예측한다.

높은 정확도와 다기능성(객체 검출과 세그멘테이션)에서 ROIAlign 레이어를 도입하여 더 정확한 위치 정보를 유지하는 기술이다.

카메라 기반 물체 추적 기술

 물체 검출을 완료한 후에는 카메라 기반 물체 추적 기술을 활용한다. 자율주행차는 카메라 센서를 이용하여 각 카메라 영상의 순차적인 시퀀스로 구성된 비디오 데이터를 실시간으로 생성한다. 카메라 기반의 물체 추적 기술을 활용하여 교통 상황을 분석하고, 무인 감시 카메라와 자율주행에 적용한다. 이 과정에서 물체에 ID를 부여하고 여러 피드백 루프를 통해 과거 프레임과 현재 프레임의 검출 결과를 연결하여 추정하는 시스템이 추가돼서 추적하는 정도로 이해하자

카메라 기반 영역 검출

 결론적으로 추적 후에도 영역 분할 및 검출을 진행해야 한다, 검출 대상을 몸체가 있는 물체와 형태가 분명하지 않은 객체로 구분하며, Semantic 영역 분할 기술은 같은 종류에 해당하는 영역을 분할할 수 있는 기술이다. 각 개체에 속하는 영역의 종류를 분류하여 차도, 도로, 횡단보도, 과속 방지턱 등의 영역을 검출한다.

 

 결론적으로 카메라 검출은 물체의 위치와 종류를 알아내는 기술이다. Semantic 영역 분할 기법에서 CNN을 적용하여 물체의 특징을 추출하고 각 픽셀이 속하는 카테고리를 판별한다.

 다양한 주행 카메라 영상 데이터를 취득하고 각 픽셀에 라벨링 하여 딥러닝 모델을 트레이닝한다. 차도와 도로 영역 검출에서는 자율주행차가 차로를 준수하고 안전한 주행 도로를 다닐 수 있도록 유용한 정보를 제공하며, 검출데이터 기반과 지도 기반을 통해 자기 차량의 위치 측위에 차로 도로 영역 검출 정보와 지도 정보를 매칭시킨다.

 그러한 결과로 다양한 영역에서 검출이 가능하며, 동적 객체 검출과 차로 도로 영역 검출에서 딥러닝 CNN 구조를 공유하고 최종적으로 시간을 단축할 수 있다는 점이 이 기술의 특장점이다.

 

지금까지 카메라 센서까지의 이야기를 했으니 다음글 부터는 레이더 센서에 대해서 한번 알아보자

반응형