본문 바로가기
AI/AI기초

Data Centric AI란?

by 짐승 2024. 11. 14.
728x90
반응형

Data Centric AI란?

Data Centric AI는 AI 모델의 성능을 개선하기 위해 데이터의 질과 그 준비 과정을 중심으로 하는 접근 방식이다. 기존의 AI 연구는 주로 모델 설계와 알고리즘 최적화에 집중되어 왔다.

 

하지만 최근 트렌드로 데이터 중심 접근법, 즉 Data Centric AI가 중요한 연구 주제로 떠오르고 있다. Data Centric AI는 데이터를 클렌징하고 정제하여 AI 모델의 성능을 극대화하는 것을 목표로 한다. 여기서 데이터 클렌징은 노이즈를 제거하고, 누락된 값을 보완하며, 데이터의 형식과 일관성을 유지하는 과정이다. 이러한 과정에는 데이터 라벨링, 오류 수정, 중복 데이터 제거, 데이터 표준화 등이 포함된다.

데이터 라벨링이란?

데이터 라벨링은 AI 모델을 학습시키기 위해 데이터를 구조화하고 특정 의미를 부여하는 과정이다. 데이터 라벨링은 이미지, 텍스트, 오디오 등 다양한 유형의 데이터에 대해 각 데이터 포인트에 적절한 태그를 부여함으로써 AI가 이를 학습할 수 있도록 돕는 것이다.

 

이 과정에서 라벨링 작업자는 데이터를 분류하고, 정의된 기준에 따라 데이터를 구분하며, 모델이 학습할 수 있는 형태로 데이터를 가공한다. 이러한 라벨링 작업은 AI 모델의 예측 정확도를 크게 좌우하며, 특히 자율주행차, 의료 영상 분석, 음성 인식 등과 같은 분야에서 주로 활용되고 있다.

 

 

크라우드잡스 | 누구보다 쉽고 빠르게 N잡을 시작하세요!

크라우드잡스로 재택알바 준비 끝! 지금 바로 새로운 수입을 만드세요.

jobs.crowdworks.kr

 

위와 같이 국내에서도 다양한 인원을 구하고 있으며, 실제로 인도에서는 라벨링 기반의 일자리가 많이 만들어지고 있다

 

Data Centric AI의 대두

AI 시스템은 크게 코드와 데이터로 구성된다. 기존의 연구는 주로 코드 최적화와 알고리즘 개발에 집중해 왔지만, 실제로 AI 모델의 성능을 결정짓는 중요한 요소 중 하나는 데이터의 질이다. 데이터 중심의 AI 접근법은 모델 중심 접근법과 달리 데이터의 중요성을 강조하며, 데이터의 품질을 향상시키는 과정을 통해 AI 성능을 개선하고자 한다. 반면, 모델 중심의 AI 연구는 데이터 확보가 항상 보장되지 않기 때문에 정교한 메커니즘과 세밀한 조정이 필수적이었다.

출처-현대자동차 그룹

 

데이터 중심 AI에서 핵심적인 과정은 데이터를 클렌징하고 정제하는 것이다. 이 과정은 데이터의 정확성을 보장하기 위해 불필요한 노이즈를 제거하고, 데이터의 일관성을 유지하며, 오류를 수정하는 일련의 작업을 포함한다. 특히 데이터 라벨링과 태깅은 AI 모델이 학습할 수 있도록 데이터를 구조화하고 특정 의미를 부여하는 중요한 단계이다. 이 작업은 대부분 사람이 수작업으로 수행해야 하기에 많은 시간과 노력이 필요하며 상당히 노동집약적이다.

 

실제 사례로, Google은 2016년부터 수백만 개의 이미지와 텍스트 데이터를 수작업으로 라벨링하여 데이터 품질을 향상시켰고, 이를 통해 모델 성능을 크게 개선했다. Tesla 또한 2021년에 자율주행 시스템을 개선하기 위해 100만 개 이상의 데이터를 클렌징하여 모델 정확도를 5% 이상 향상시켰다. 이러한 사례들은 데이터 클렌징과 라벨링의 중요성을 보여주며, 결국 AI 모델의 성능 향상에 결정적인 역할을 한다.

 

이러한 사례들을 통해 알 수 있듯이, AI 시스템의 코드를 정교하게 설계하는 것도 중요하지만, 데이터를 얼마나 깨끗하고 일관되게 유지하느냐가 AI 모델의 실제 성능에 큰 영향을 미친다. 특히 AI가 적용되는 여러 분야에서 데이터의 질이 모델 성능의 열쇠가 된다는 점에서 Data Centric AI의 중요성은 나날이 커지고 있다.

 

빅데이터 무용론과 Data Centric AI

Data Centric AI의 등장은 빅데이터의 양이 아니라 질을 중시하는 관점의 전환을 불러왔다. 과거에는 데이터의 양이 늘어날수록 AI 모델의 성능이 향상된다는 것이 일반적인 견해였지만, 최근 연구에서는 양질의 데이터가 양적으로 많은 데이터보다 더 큰 성능 향상을 가져올 수 있음이 강조되고 있다.

 

이로 인해 '빅데이터 무용론'이 대두되고 있다. 빅데이터 무용론은 단순히 많은 양의 데이터가 항상 좋은 AI 성능을 보장하지 않는다는 점을 강조한다. 즉, 데이터의 양이 많더라도 해당 데이터가 노이즈가 많거나 일관성이 부족하다면, AI 모델의 학습 과정에서 오히려 성능이 저하될 수 있다. 실제로 많은 데이터가 있을지라도 그 데이터가 불완전하거나 오류가 많으면 모델의 정확성을 해칠 수 있다. 따라서, 빅데이터의 '양'보다는 데이터의 '질'이 더 중요하다는 것이 Data Centric AI의 핵심 관점이다.

 

결국 데이터 클렌징 과정에서 가장 중요한 요소 중 하나는 데이터의 일관성(consistency)이다. 데이터의 일관성은 모든 데이터가 동일한 기준과 형식을 유지하는 것을 의미하며, 이는 AI 모델이 데이터의 패턴을 정확하게 학습할 수 있도록 돕는다. 데이터가 일관되게 유지되면, AI 모델은 예측에 필요한 명확한 규칙을 보다 쉽게 파악할 수 있으며, 결과적으로 예측 오류를 최소화하게 된다.

 

 일관성 있는 데이터는 AI 모델이 학습하는 과정에서 잡음(noise)을 줄이고, 모델이 실제 환경에서 더욱 높은 정확도와 신뢰성을 발휘할 수 있게 한다. 예를 들어, 같은 이미지에 대해 서로 다른 라벨이 부여된다면, 모델은 이러한 모호한 패턴을 잘못 학습하게 되어 예측 정확도가 낮아질 수 있다. 따라서 데이터를 수집하고 라벨링하는 단계에서부터 일관된 기준을 적용하고, 지속적으로 오류를 수정하여 데이터의 일관성을 유지하는 것이 필수적이다.

 

현실적인 문제와 데이터 확보

현실적으로 모든 분야에서 방대한 양의 빅데이터를 확보하는 것은 불가능하다. 이는 데이터 수집에 막대한 시간과 비용이 소요될 뿐만 아니라, 데이터의 품질 관리가 어렵기 때문이다. 예를 들어, 자율주행 차량의 학습을 위한 도로 상황 데이터는 다양한 기후와 도로 조건을 반영해야 하지만, 이를 일관성 있게 수집하기 위해서는 방대한 양의 고해상도 영상을 지속적으로 확보하고 정제해야 한다.

 

이러한 과정은 촬영 장비, 저장 공간, 데이터 처리 능력 등 여러 자원이 필요하여 현실적으로 매우 높은 비용이 든다. 또한, 의료 데이터의 경우, 개인정보 보호 규제와 윤리적 문제로 인해 데이터 접근이 제한되며, 희귀 질환과 같은 특정 데이터의 경우 충분한 샘플을 확보하는 것 자체가 매우 어렵다.

 

하지만  AI 모델의 성능을 극대화하기 위해서는 양질의 데이터를 확보하고 정제하는 과정이 필수적이다. 결국 무한한 돈을 투자 할수는 없는 현상황에서 나온 대안이  GAN 방식으로 렌더링 이미지를 만들어 라벨링이 필요없는 ai를 개발하는 방향성이다.

 

라벨링이 필요 없는 딥러닝 

 

상세 정보를 이미 가지고 있다면, 메타팩토리 구성시 기존에는 데이터가 부족할 때는 돈울 들여 큰 수의 법칙을 활용하여 데이터를 증가시키거나, 특정 오류가 발생한 데이터셋을 중심으로 데이터를 두 배 이상 늘려 데이터의 다양성을 확보하는 방법을 활용했다.

 

 

하지막 생성식을 활용한 GAN은 주로 위조지폐범과 경찰관에 비유해서 이해하면 편하다. 위조지폐범은 최대한 정교하게 위조지폐를 만들고, 경찰관은 이를 판단하는 과정에서, 위조에 실패할 때마다 위조지폐범이 점점 더 정교하게 위조지폐를 만듦으로써 실제에 더 가까워지는 방식이다. 이를 통해 3D 모델을 실제 사진에 최대한 가깝게 변환할 수 있고, 이를 과정 또한 학습 데이터로 활용한다. 

 

결론적으로 데이터를 늘리나 여러 방식을 사용하나 Data Centric AI에서는 데이터의 질을 높여 모델의 성능을 개선하는 것이 핵심이다. 양질의 데이터를 통해 AI 시스템의 성능을 개선하고, 이를 현실에 적용함으로써 AI의 활용 가치를 극대화할 수 있다. 결국, AI 모델의 성공은 얼마나 일관되고 신뢰할 수 있는 데이터를 확보하느냐에 달려 있다.

반응형