2023-06-30,   최선빈

본 포스팅은 데이터 중심의 AI에 대한 내용입니다.


 

AI 발전의 변화

 

그동안 AI 발전의 스포트라이트는 주로 모델(Model)에 집중되고있었습니다. 다양한 분야에서 언급되고 대표로 사용되고 있는 CNN, Transformer, GPT등이 바로 모델입니다. 하지만 최근 모델을 중심으로 이어져 온 거대한 흐름에 변화가 일어나기 시작했습니다.

지난 2021년 인공지능의 시대를 이끈 최고의 학자인 앤드류 응(Andrew NG)은 ‘머신러닝 시스템 개발: 모델 중심에서 데이터 중심으로(A Chat with Andrew on MLOps: From Model-Centric to Data-Centric AI)’라는 세미나를 진행합니다. 세미나를 통해 그동안 모델 연구에 치우쳐 있던 AI 분야에서 ‘데이터 중심(Data-Centric) AI’에 주목해야 할 때가 왔음을 알리게 되었습니다.


 

데이터 중심(Data-Centric) AI란?

 

AI 시스템은 크게 코드와 데이터로 이루어져 있습니다. 많은 기업들은 인공지능의 성능을 고도화 하기 위해 모델 구조, 하이퍼파라미터 튜닝, 학습 방법 등 코드에 대한 개선을 통해 시스템 고도화를 진행하고 있습니다. 하지만 실질적으로 AI 시스템의 성능을 높이는 것은 코드의 대한 개선이 아닌 데이터에 대한 개선이 더 좋은 결과를 보여주고 있습니다.

코드 개선과 데이터 개선, 실제 결과

위 도표를 보면 모델의 하이퍼 파라미터(Hyper parameter)를 조절했을 때 기준 모델(Baseline model)*은 76.2% 정확도를 기록한 데 비해, 데이터를 개선했을 때는 무려 93.1% 정확도를 기록한 것을 확인할 수 있습니다. 그의 경험상 실제로도 이런 경우가 많았었고, (코드는 건드리지 않고) 데이터만 개선하는 방법으로 더 좋은 결과를 만들어낸 적이 꽤나 많았다고 합니다.

기업에서 인공지능 개발 업무를 수행하는 수 많은 엔지니어들을 상대로 ‘머신 러닝 모델 성능을 개선하기 위해서 모델 개선이 더 유리한가, 데이터 개선이 더 유리한가?’라는 질문에서 투표자 중 80%가 ‘데이터 개선이 유리하다’ 라고 답변하기도 했습니다.

투표 결과

 

기업은 어떤 중심 AI로 인공지능을 개발하는가?

 

21년 테슬라의 안드레아 캐퍼시는 강연을 통해 테슬라의 자율 주행 기술의 성능은 학습용 데이터 개선을 통해 고도화 되었음을 이야기기합니다.

Tesla

테슬라에서 주장하는 데이터 구축은 세 단어로 압축됩니다. 데이터셋의 Large, Clean, Diverse를 한 번에 추구하는 것입니다. 테슬라에서는 약 4개월 정도의 기간 동안 총 1.5.페타바이트(PB)에 달할 정도의 데이터를 구축한다고 하는데, 이것은 전 세계의 다양한 도로 환경에서 수집된 10초 길이의 동영상 100만 개와, 60억개에 이르는 오브젝트가 포함되는 규모입니다.

테슬라가 이런 큰 데이터를 고품질로 효율적으로 구축할 수 있었던 것은 테슬라의 쉐도우 모드(Shadow mode) 기술을 사용하였기 때문입니다. 쉐도우 모드는 고객의 차량 백그라운드에서 조용히 실행되며, 차체를 제어하지 않으면서 주행 환경에 대한 예측을 항상 하고있습니다. 또한, 오프라인 환경에서 바로 라벨링 자동화 작업을 수행하기 때문에, 작업자는 라벨링의 결과가 적절한지 검수하여 필요시에 약간의 수정을 더 하는 방식으로 대규모의 작업에 효율을 더함으로써 큰 데이터를 구축함과 동시에 자율주행의 성능을 고도화한다고 발표하였습니다.

테슬라의 이 발표는, 결국 머신 러닝 서비스의 풂질 향상에는 효율적인 데이터 수집에서 모델 개선까지 이르는 파이프라인과 이 과정에서 효율을 극대화 하는 워크플로우 구축이 핵심이라는 점을 볼 수 있습니다.

최고의 성능을 자랑하는 테슬라가 데이터 중심의 관점에서 철저히 유지하고 있지만, 국내 기업들은 데이터 목적/단계에 따라 서로 다른 데이터 이슈를 겪고 있는 상황입니다. 그리고 데이터 이슈에 대해 접근을 하였을 때, 많은 기업들이 현재 머신 러닝 개발 단계의 어느 지점에 머물러 있는지 파악할 수 있었습니다.

기업 이슈

 

마무리

 

이번 블로그를 통해 인공지능 시스템을 개발하기 위해서는 모델의 선정도 중요하지만, 어떤 데이터를 사용할 것인지, 어떻게 데이터를 가공할 것인지에 대해서도 중요하게 생각할 수 있게 되었습니다.


참고문헌

[1] 데이터 중심의 AI 개발

[2] Data-Centric AI와 Real-World

[3] 한국의 기업들은 데이터 중심의 AI에 얼마나 준비되어 있을까요?

[4] 코드 보다 데이터?

업데이트: