박민우 크라우드웍스 대표, “사람처럼 AI도 평생 학습 필요한데서 기회를 봤죠”
한국판 실리콘밸리라 불리며 IT 기업의 본산지였던 ‘테헤란밸리’의 중심가. 테헤란 시대를 연 벤처가 하나 둘 판교신도시로 떠난 그 자리가 IT 스타트업으로 채워지고 있다. 크라우드웍스도 그중 하나다. 설립 6개월, 그 짧은 시간에 네이버D2의 투자까지 이끌어내며 옛 테헤란밸리 중심가에 둥지를 튼 크라우드웍스는 벤처 1세대로, 토종 검색엔진 ‘와카노(Wakano)’로 세간에 화제가 됐던 박민우 씨의 네 번째 창업이었다.
write/photo Suhyeoni
Q 벤처1세대다. 이번이 몇 번째 창업인가?
검색엔진을 위한 데이터, 즉 웹사이트 인덱싱은 과거 전적으로 인력에 의존했다. 그러다 자동화 된 봇(bot)이 그 역할을 대신할 무렵, 당시 대학원생이었던 난 홀로 와카노란 검색엔진을 개발했었다. 수집 봇, 형태소 분석기 등을 다 만들었다. 내 얘기가 조선일보 1면에 실리며 하루아침에 유명인이 되어 버렸다. 현대전자 연구소의 스카우트를 제의가 그 무렵 들어왔다. 그곳에서 ‘신비로’란 포털의 검색엔진을 개발했었다. 당시 연구소 맞은편 연구실에 김택진(현 엔씨소프트 창업주)이 있었다. (친하진 않았단다. (웃음)) 그러다가 함께 있던 연구원 4명과 함께 나와 기업용 검색 솔루션 회사 ‘에이전텍’을 창업했다. 그 뒤로 3번의 M&A를 경험했다. 굳이 따지자면 크라우드웍스가 네 번째 창업이다. (한번은 창업이라고 하기 그렇다고.)
사회생활 20여 년이면 보통 4번 이직한다. 난 그만큼 창업을 했다. 성격상 해보고 싶은 것을 해야 했고, 월급 받으며 사는 게 적성에 맞지도 않았다. 하고 싶은 걸 해야 하니 창업 외에 다른 길이 없었다.
Q 검색이 아닌 AI라니 의외다.
한때 사기로 회사를 빼앗긴 적이 있었다. 스톡옵션에 회사를 넘긴 꼴이었다. 1년 뒤에나 ‘사기’인 걸 알았다. 할 수 있는 게 없더라. 결국, 팀원 20명을 데리고 다시 창업전선에 뛰어들었다. 뭘 할까 고민하다가 AI가 눈에 보였다. AI 선두 기업을 봐라. 그 대부분은 ‘검색’을 하던 회사다. 검색에서 다루는 게 ‘자연어 처리’ 아닌가. 자연어 처리를 가장 효율적으로 할 수 있는 게 머신러닝이다. 그들과 뉴럴 네트워크 등의 개념을 알고리즘으로 구현했다. AI에 눈길조차 주지 않던 AI의 암흑기였던 2000년대 AI에 뛰어들었으니 결과가 좋았겠는가. 결국 2년여 만에 쫄딱 말아먹었다. 뼈아팠다. 기술력이 부족한 탓이라 자책하며 시간을 흘러 보냈다. 지금에 와서 돌이켜 보면 당시 알고리즘을 돌릴 하드웨어가 없었다. 그게 폐착인데, 그때는 기술력 문제라 생각했다. 그 뒤로는 AI를 쳐다 보지도 않았다. 혹연아 AI 한다는 데가 있으면 ‘사기꾼’이라 치부했다. 2016년쯤일 것이다. ‘데이터’가 눈에 들어왔었다. 우여곡절 끝에 결국 다시 AI를 하고 있다. 17년 전이나 지금이나 AI 알고리즘 등은 크게 달라진 게 없었다. 단지 인프라, 그리고 툴만 더 좋아져 있었다. 그래서 이번 창업은 시작이 좀 더 쉬웠다.
Q AI 서비스나 기술이 아닌 크라우드소싱을 통한 학습데이터 생산으로 창업했다.
AI로 창업에 실패하고 나니 트라우마가 생겼다. AI 서비스는 꼴도 보기 싫었고 하고 싶지도 않았다. 요새 AI 스타트업이라고 하면 다 서비스를 만들려고 한다. ‘스포츠카’를 만들었다 치자. 연료 없이 스포츠카가 움직일 수 있는가. 그래서 AI의 연료격인 ‘데이터’에 기회가 있다고 봤다.
해외만 해도 크라우드웍스 같은 데이터 생성 기업이 AI 생태계에서 굉장히 중요한 역할을 한다. 최근까지도 데이터 생성 기업이 계속 생겨나고 있다. 이처럼 해외에서는 AI가 상당 수준까지 발전하면서 관련 생태계가 활성화되고 있지만, 한국은 4~5년은 뒤쳐저 이제 겨우 기술을 습득해 서비스를 만들고 있다. 한국에서 데이터에 관심을 두고 뛰어든 기업은 없었다. 그럼 우리가 해보자. 그래서 창업을 했다.
Q 창업한지 6개월도 채 되지 않아 투자를 받았다. 어찌된 일인가?
2017년 4월 25일 창업했다. 내 생일날이다. (웃음) 2017년 2월까지는 대학교수로 학생을 가르쳤다. 그러면서 스타트업 액셀레이터 조합에 가입해 멘토링과 투자 일을 병행했었다.
멘토링을 할수록 답답했다. 그래서 내가 창업하기로 했다. 지인에게 사업 계획을 설명하며 시드머니(Seed Money)를 모았다. 사실 제대로 된 사업 계획조차 없었는데, 고맙게도 나를 믿고 알음알음 돈을 내줬다. 그 돈을 가지고 사업계획서를 준비했다. 5월 중순인가 우연히 페이스북 광고로 네이버 AI 스타트업 공모전을 봤다. 이거다 싶었다. 지원한지 일주일이 지났을까 연락이 왔다. 1차 미팅 후 기술심사를 받았고 이틀 뒤 투자가 결정됐다. 심사부터 투자 결정까지 2주가 걸렸다. 2주 뒤에는 투자금이 입금됐다. 모든 일이 일사천리로 진행됐다.
창업 두 달만에 가장 큰 난관인 자금 문제를 해결하고 나니 그 후로는 서비스 개발에만 몰두할 수 있었다. 나중에 들었는데 네이버는 2년 동안 1,800개 스타트업을 검토했고 그중 16개 스타트업에 투자를 했다더라. 우리가 16번째 투자였다. 거의 막판에 두 달도 안 된 스타트업에 투자한 것은 처음이라 더라. 반대로 보면 네이버도 데이터에 대한 간절함이 있었던 게 아닐까. AI 관련해 안 해본 게 없을 테니 말이다. AI 스타트업도 다 만나 봤을 거고. 가장 힘든 게 학습데이터 수집과 처리라는 걸 네이버도 알았을 거다. 그 역할을 하는 스타트업이 나타나니 고민할 것도 없이 투자를 한 것 같다.
Q 몇 명과 일하고 있나?
2000년 창업 당시 30살이었다. 어려서 그랬는지 무모했다. 시작부터 20명을 데리고 창업하는 회사가 어디에 있겠는가? 지금은 8명이다. (웃음)
Q 크라우드소싱으로 데이터를 전처리하는데, 해외 서비스와 달리 검수 시스템이 있다. 왜인가?
크라우드웍스는 블특정 다수가 참여하는 크라우드소싱 시스템을 채택했다. 이미지, 텍스트, 음성, 설문조사 총 4종류의 학습데이터를 온라인상에서 100% 다룬다. 해외 서비스는 개설자를 연결만 시켜주는 마켓 플레이스에 가깝다. 그래서 검수 시스템이 없다. 반면 우리는 데이터 전수검사를 통해 데이터 신뢰 수준을 99%까지 높였다. 왜냐하면 해외의 경우 머신러닝 학습 수준이 높아 잡음이 있어도 학습이 충분히 되지만, 우리나라는 아직 모델을 만드는 데 품질보다는 학습데이터의 정확도가 더 중요하기 때문이다. 기술을 높일 것인가? 아니면 학습데이터 품질을 높일 것인가? 기술에 투자해 해외 수준을 따라가기에는 시간이 많이 걸린다. 그보단 데이터 품질을 높이는 게 더 효과적이라 판단했다. 한국뿐 아니라 아시아권의 대부분의 AI 기업은 학습데이터의 신뢰성을 무척 중요시 하는 경향이 있다.
Q 작업자는 어떤 분들인가?
기획 당시에는 40대 주부를 타겟으로 삼았었다. 부업으로 라벨링 작업을 하리라 기대했다. 막상 서비스해 보니 작업자의 대다수가 20대 여성이었다. 건당 30~40원 벌이의 일을 주부는 하려고 하지 않았다. 청년 실업이 100만 명이라고 한다. 20대가 돈을 벌 수 있는 방법은 의외로 많지 않다. 시공간에 제약 없이 돈벌 수 있는 모델이면 그들을 참여시키기에 충분하다고 본다. 그래서 20대 여성 타겟에 맞춘 크라우드웍스 모바일 앱을 준비하고 있다.
Q 학습데이터를 생산하는 게 아니라 데이터 전처리만 대행하는 것인가. 학습데이터를 공유하는 모델은 고려하지 않는가?
우리의 고객은 데이터 사이언티스트다. 작업은 불특정 다수가 한다. 데이터 사이언티스트, 즉 작업 개설자는 크라우드웍스에서 필요한 학습데이터를 원하는 모델대로 템플릿을 만들 수 있게 서비스되고 있다. 그 템플릿에 데이터를 올리고 카드 결제로 포인트를 충전한다. 작업 단가는 작업 개설자가 정한다. 작업자가 작업하면 개설자의 포인트가 차감되는 식이다. 개설자와 작업자 사이에 우리가 개입할 것은 없다. 작업자는 알아서 작업을 하는 마켓플레이스가 되는 게 우리의 목표다.
그러기 위해서는 개설자가 마음대로 템플릿을 만들 수 있는 기능을 제공해야 한다. 이러한 기능은 데이터에 종속적이다. 우리가 직접 템플릿을 만들면 좋지만 아직은 데이터를 다뤄본 경험이 부족했다. 반대로 작업자의 수가 충분치 않으면 작업 진척이 문제가 될 것이다. 이 모두를 B2C 모델로는 만족시키기 어려웠다. 그래서 기획 초기에는 B2C 비즈니스 모델을 염두에 두었지만, 현재 B2B 모델로 운영 중이다.
장기적으로는 대량의 데이터를 확보해서 이런 경험치를 쌓아 B2C 모델로 가려 한다. B2C로 가면 서비스 단가를 낮추고 데이터를 공유하는 형태의 협상이 가능해진다. 그러면 확보한 데이터를 재활용하고 데이터를 판매할 수 있을 거라 보고 있다.
데이터 사이언티스트가 작업을 의뢰하고 데이터를 구입하는 서비스가 되면 데이터 사이언티스트 대상으로도 크라우드소싱이 가능할 거로 보고 있다. 앞으로는 데이터 사이언티스트가 모이는 곳이 권력의 중심이 될 것이다. 데이터가 있고 이해하고 만질 수 있는 사람이 모이는 데까지는 3~4년은 족히 걸리지 않을까. 그 첫 단계를 이제 막 시작했다고 할 수 있다.
Q 데이터 전처리에서 무엇이 문제인가?
딥러닝은 결과를 예측할 수 없다. 따라서 학습데이터를 계속 바꿔가며 학습해야 하는데, 요즘 하드웨어 성능이 좋아져서 학습 시간은 그리 오래 걸리지 않는다. 문제는 많은 시간이 걸리는 데이터 전처리를 반복적으로 해야 한다는 점이다. 기업 내에서 데이터를 다루는 데에만 많게는 전체 프로젝트 시간의 70%를 쓴다고 한다. 이런 업무를 고급 데이터 사이언티스트가 할 이유가 전혀 없다. 현재는 할 수밖에 없는 상황이라 직접 하는 것뿐이다.
Q 서비스에 따라 데이터셋, 모델링이 달라지는가?
학습데이터는 굉장히 주관적인 모델이다. A라는 사진이 있는데 이 사진에 필요한 모든 객체를 라벨링 하면 다양한 곳에 활용할 수 있지 않을까 싶겠지만 실제로는 그렇지 않다. 데이터 모델링은 어떤 서비스를 할 것인가에 종속적이다. 모든 사물을 인식할 수 있는 컴퓨터 비전은 없다. 사람을 찾을 것인가? 아니면 동물을 원하는가? 이러한 전문성이 필요하다. 사진 한 장에 책상, 꽃 등 수많은 사물이 있다고 하자. 그 모든 걸 라벨링 해야 할까? 자율주행자동차라면 오토바이, 차, 사람, 자전거 이 4개만 인식하면 될 것이다. 잡다한 모든 것을 라벨링 하면 인식률은 떨어지고 만다. 서비스가 무엇인가에 따라서도, 모델링에 따라서도 필요한 학습 데이터와 전처리가 달라진다. 미리 다 할 수 없고 개수, 크기 등에도 제한이 있을 수밖에 없다.
결국 머신러닝의 목적은 노이즈를 버리고 시그널을 찾는 거다. 노이즈가 뭐냐면 라벨링 이외의 것이다. 책상을 모델링 했을 때 책상 경계를 그대로 딸 수 있다면 가장 좋지만 작업이 쉽지 않다. 이를 어떻게 할 것인가는 모델링을 설계할 때 결정해야 한다. 타이트하게 인식하도록 모델을 설계했으면 학습데이터도 타이트하게 가공해야 한다.
Q 공공 데이터, 위키 데이터뿐 아니라 해외의 데이터셋 가져다 쓸 수 있지 않은가?
미국 등에서 이미 많은 데이터를 가지고 있으니 가져와 쓰면 되지 않을까라고 흔히 생각하지만, 실상은 그렇지 않다. 머신러닝의 특징 중 하나가 지역성과 최신성이다. 어느 지역에서 언제 학습됐는가에 따라 인식률이 달라진다.
옷을 생각해 보자. 미국과 서울의 패션 트렌드는 완전히 다르다. 미국 데이터를 가져다 한국 옷을 인식시켜봤자 인식률이 떨어질 수밖에 없다. 계절과 유행에 따라서도 인식률은 달라진다. 지역마다 사투리도, 말투도 다르다. 시간에 따라 말은 바뀌어왔다다. 10년 전 말투와 지금의 말투는 다르다. AI의 학습은 서비스가 존재하는 한 계속될 수밖에 없다. 서비스가 유지되는 한 학습량도 절대 줄어들지도 않을 것이다.
어릴 때 학습으로 몸에 벤 습관은 어른이 된 후 다시 배우지 않아도 된다. 사람의 학습을 따라한 AI는 사람이 20년간 배워온 것을 두 달로 줄이는 거지 건너 뛸 수는 없다. 학습을 하려면 강의를 보든, 책을 보든, 최신 학습데이터가 필요하다. 평생 학습데이터를 만들어야 한다는 게 AI 기업이 가진 문제고, 우리에게는 기회다.
Q 다가오는 AI 시대에 직업에 어떤 변화가 있을 거라 보는가
AI 관련 직종에 데이터 사이언티스트, 머신러닝 엔지니어, 라벨러 3개 그룹이 있다. 지금은 데이터 사이언티스트 비중이 가장 높다. 모델이 정립되면 모델링을 하는 데이터 사이언티스트 수는 급격히 줄어들 것이다. 경험치가 전파되면 가져다 쓰는 쪽으로 바뀔 것이기 때문에 많을 필요가 없지 않은가. 기존 SW는 운영 유지보수가 큰 비중을 차지하지만 AI에서는 운영 유지보수로는 학습데이터만 주면 된다. 결국 앞으로는 라벨러가 더 많이 필요해질 것이고 본다. 여기에 기회가 있다고 본다. 앞으로는 고용이 줄어드는 게 아니라 고용의 질이 달라지는 것이다. 단순 업무를 하는 사람이 늘어나고, 고급 업무를 하는 사람은 줄어들 것으로 보고 있다.
Q 현재 이미지, 텍스트, 오디오, 설문조사 네 가지 학습데이터를 다루고 있다. 설문조사는 어떤 식으로 AI에 활용되는 것인가?
우리가 하는 일의 하나가 IBM 왓슨의 퍼스널리티 인사이트(IBM Watson Personality Insights) 관련 설문조사 대행이다. 최근 굉장히 중요해지고 있는 게 감성 인식이다. 강성공학의 접근 방법인데, 감성은 학문적으로 감정 이전 단계라고 한다. 감정은 인체를 통해 표현되는 거고 감성은 감정이 표현되기 전 단계다. 감성은 감정으로 표현될 수 있을 수도, 아닐 수도 있다. 즉 숨어 있는 의식이다. 그게 왜 중요한가는 제품 구입에 감성의 영향이 크기 때문이다. 기업은 이걸 감정 이전에 인식하고 싶은 거다. 설문조사로 감성을 읽을 수 있다. 그런데 설문조사는 얼마든지 장난을 칠 수 있다. 신뢰도를 어떻게 판단해야 할까? 때문에 설문조사는 트위터 계정이 있고, 포스트가 100개 이상인 분을 대상으로만 하고 있다. 설문조사가 끝나면 트위터의 포스트와 비교를 해 감성을 유추한다. IBM 왓슨의 퍼스널리티 인사이트는 이걸 학습한다. 국가별로 다 모아 사람의 감성에 어떻게 접근할 수 있는가를 연구하고 있다. IBM 왓슨과 협력하는 우리와 같은 회사가 미국에 굉장히 많다. 한국에는 그걸 맡길 회사가 없다. 그래서 IBM이 우리가 협력하고 있다.
Q 크라우드웍스의 고객의 실제 사례가 궁금하다.
지금까지 여섯 기업이 우리 서비스를 이용했다. 최근 자율주행 자동차 관련 AI 기업의 의뢰가 많다. 그들은 라벨링 외주처리에만 4~5천만 원을 지불하는데, 라벨링 데이터를 직접 검수해야 해왔다고 한다. 크라우드웍스는 모든 게 온라인상에서 처리되고 검수까지 처리해줘 비용 절감 효과가 크기 때문에 우리를 찾고 있다.
Q 많은 이들이 데이터 없는 인공지능은 허상이라고 말한다. 데이터가 다가 아니라는 반론도 있다.
인프라는 이제 고민할 게 없다. 결국 알고리즘, 모델, 데이터 이 세 가지가 남는다. 알고리즘도 크게 고민하지 않아도 된다. AI 선두 기업이 알고리즘을 모두 공개한다. 게다가 그 대부분이 오픈소스다. 그들이 왜 공개하는 것일까? 구글이 캐글(Kaggle)을 왜 인수했는지에 답이 있다. 데이터는 핵심이고 다룰 줄 아는 것은 자산이다. 구글이 캐글 인수로 얻고 싶은 것은 데이터 사이언티스트다. AI 도구는 텐서플로다. 그런 식으로 AI 생태계를 만들려는 거다. 캐글을 인수하고 텐서플로 공개해 툴을 공급하는 것은 결국, 자사의 플랫폼(서비스)을 쓰라는 거다. 남은 것은 모델링과 데이터다. 이 둘은 상호 종속적이다. 모델링을 할 때 데이터 수집과 가공을 고민해야 한다. 모델링은 수학 지식과 데이터 활용 경험 이 두 가지가 중요하다. 지금은 워낙 사람이 없으니 석사만 데려다 채용하는데, 그 사람이 수식을 보고 데이터에 숨겨진 의미를 파악할 수 있는가는 의문이다. 데이터 활용 경험과 데이터 지식은 엄연히 다르다. 이 둘을 겸비해야 진정한 데이터 사이언티스트다. 지금은 사람이 워낙 없고 이제 막 시작하는 단계라 데이터 지식만 있으면 뽑는 것이다.
Q 학습데이터에서 양과 질 어느 것이 더 중요한가?
둘 다 중요하다. 데이터 모델에 따라 데이터의 양과 질이 결정된다. 어떤 경우에는 질이, 어떤 경우에는 양이 중요하다. 양은 모델 수준에, 질은 신뢰 수준에 달려있다. 어디서는 80% 신뢰 수준이면 족하지만, 다른 어딘가는 99% 신뢰수준을 요구한다. 차인지 오토바이인지를 구분하는 경우를 보자. 신뢰 수준이 낮아도 크게 문제가 되지 않는 것과 같은 이치다.
Q (2017년) 현재의 AI를 어떻게 보고 있나
세 가지 측면에서 AI를 보자. 우선 실제 제품이 나왔다. 바로 AI 스피커다. 사람들이 사겠다고 달려들고 있다. 즉, 매출과 수익이 발생하고 있고, 점차 생활 깊숙이 침투하고 있다. 과거 스마트폰이 출시해 붐을 이뤘을 때와 유사하다.
사물인터넷이 여전히 흐지부지인 것은 사용자가 쓰지 않기 때문이다. 전등이 인터넷과 연결돼야 할 마땅한 이유를 못 찾으니 생활에 녹아들지 못하는 것이다. AI는 스마트폰과 스피커뿐 아니라 음악과 자동차 등에 빠르게 들어가고 있다. 생활 곳곳에 침투되는 속도가 사물인터넷과 빅데이터보다 훨씬 빠르다. 아직 확실히 자리 잡았다고 할 수는 없지만, 2~3년 내에 판가름 날 것이라 보고 있다.
Q 요즘은 데이터가 권력이고 자산인 시대다. 기업도 데이터의 중요성을 인식하고 고민하고 있지만, 대규모 데이터를 다루는 곳은 극히 일부고 데이터 수집과 보관 등도 아직은 갈 길이 먼 것 같다.
빅데이터가 휩쓸면서 저수준의 데이터는 많이 쌓았다고 본다. 가공할 필요가 없는 데이터도 많다. 로그 데이터가 여기에 해당한다. 이러한 저수준의 데이터만으로도 의미 있는 서비스를 만들 수 있다. 반면 컴퓨터 비전, 음성합성의 경우 80% 이상 별도로 가공해야 한다. 정리하면, 어떤 것은 가공이 필요 없고 어떤 것은 필요하다. 어떻게 보면 질이 그리 중요하지 않을 수도 있다. 그보다는 데이터 구조가 더 문제일 수 있다. 로그는 당연히 많이 쌓을수록 좋다. 의미 없는 데이터를 쌓는다고 권력이 되는 것이 아니다. 데이터에서 의미 있는 것을 찾고 만들 수 있는가가 권력이다. 막무가내 수집이 아니라 수집의 목적을 생각하며 수집해야 한다.
Q AI 학습데이터, 어디서 얻을 수 있는가?
스탠포드 대학교의 리페이페이(李飛飛) 교수가 만든 이미지넷에는 웬만한 이미지가 카테고리별로 라벨링 되어 있다. 리페이페이 교수는 크라우드소싱 플랫폼을 통해 5만 명을 모아 데이터셋을 구축했다. 자동차, 고양이, 개 등 많은 것이 라벨링 되어 있다. 이걸로 당장 시작은 할 수 있다. 아무 문제가 없다. 하지만 서비스에 적용하려 한다면 그때 실제 데이터를 수집하고 구조화해야 한다.
또 한국데이터진흥원에서 공공 데이터뿐 아니라 학습데이터 생산, 판매, 공유 등을 하고 있다. 수요구매 형태인데 어떤 기업이 필요로 하는 것을 비용을 내고 쓰게끔 하려고 하고 있다.
Q 학습데이터의 라이선스 문제 어떤 접근이 필요한가.
가이드는 없다. 콘텐츠는 지적 재산권 문제로, 콘텐츠를 횡령하면 문제가 된다. 그런데 학습데이터는 머신러닝에 들어가면 모든 게 숫자로 바뀐다. 그 숫자는 아무도 해석하지 못한다. 이러한 숫자를 가지고 지적재산권을 논할 수 있을까? 이보다는 원본 데이터가 유출되는 그런 부분이 심각한 문제라고 보고 있다.