그림 그리는 인공지능, 이미지 생성형 AI

작업의 새로운 정의가 필요한 시대

올해 초에 샌프란시스코에 본사를 둔 오픈AI달리2라는 생성형 AI를 출시해 큰 화제를 모았었어. 이 오픈AI는 일론 머스크와 샘 알트만 등이 2015년 설립한 스타트업으로 “더 안전한 인공지능의 발전을 추구”하는 것을 목적으로 한다고 하는데, 인간처럼 글을 작성해 주는 GPT-3와 문장을 입력하면 자동으로 코딩으로 변환해주는 코덱스를 선보여 주목을 받기도 했어.

지난해에는 글을 입력하면 자동으로 이미지를 생성해주는 생성형 AI달리를 처음 선보였는데, 이번에 달리는 더 업그레이드해서 실제 작품과 같은 그림을 그리는 달리2를 내놓은 거야. 오픈AI가 달리2를 내놓으며 밝힌 출시 이유는 “아티스트들을 위해 언제든지 빠르게 이미지를 만드는 도구를 제공하고 싶었기 때문”이래.

달리

달리가 그린 아보카도 의자
달리가 그린 아보카도 의자

달리는 1,750억개에 달하는 매개변수를 활용해 딥러닝을 한 GTP-3와 동일한 모델을 사용하는데, 글자를 인식하고 이미지를 생성하는데에 1,280개의 토큰을 활용한다고 해. 여기서 토큰은 개별 어휘의 한 기호로 사용되는 단위를 말하는데, 예를 들어 알파벳은 26자로 구성되기 때문에 토큰이 26개라고 할 수 있어. 즉 1,280개의 토큰이란 것은 1,280개의 단위를 조합하여 텍스트를 인식하고 이미지를 그린다는 뜻이라고 할 수 있겠지?

그렇다면 이렇게 인공지능이 그려주는 이미지는 산업에 어떤 변화를 가져올까? 앞으로 이런 모델이 상업적으로 사용되기 시작하면, 패션디자인이나 산업디자인, 웹툰과 같은 산업에 큰 변화를 가져오게 될지도 몰라. 또 달리는 인체 내부의 온갖 장기 조직과 그 세포들까지 그릴 수 있다고 하는데, 이를 잘 활용한다면 의학 산업에도 큰 도움이 될 수 있을꺼야.

달리2

달리2가 그린 달 위의 우주비행사
달리2가 그린 달 위의 우주비행사오픈AI

달리2는 달리 보다 한 차원 더 업그레이드 된 것으로 보이는데, 가장 큰 차이는 달리의 경우 기존에 이미 존재하는 이미지를 변형해 표현한 느낌이었다면, 달리2는 “우주 비행사가 말을 타고 달을 달리고 있다”라고 입력을 했을 때, 더 독창적이고 예술작품 같은 “그림”을 그릴 수 있고, 더 높은 해상도로 더 정교한 이미지를 생성할 수 있다고 해.

또 캡션을 보다 더 정교하게 입력할 수 있는데, 예를 들어 강아지를 넣을 위치까지 글로 입력을 해서 강아지의 위치를 바꾸거나, 빛과 그림자의 질감같은 것들도 문자를 입력해서 수정 할 수 있다고 해. 게다가 이미지의 원본에서 영감을 받아 새롭운 그림을 그릴수도 있는데, 다음의 이미지와 같이 특정한 예술작품을 학습해 다양한 가품을 생성할 수 있어.

페르메이르의 진주 귀걸이를 한 소녀 원본(왼쪽)과 달리2의 모작 이미지들
페르메이르의 진주 귀걸이를 한 소녀 원본(왼쪽)과 달리2의 모작 이미지들오픈AI

달리2는 달리를 출시한 지 1년 만에 나왔는데, 짧은 기간임에도 달리2가 훨씬 발전한 이유는 사람들이 집어넣은 텍스트와 그 결과 값인 이미지를 인공지능이 학습했기 때문이야. 오픈AI에 따르면, 달리2는 달리에 비해 4배나 더 높은 해상도로 작업을 할 수 있다고 해.

GAN과 CLIP

달리와 같은 인공지능이 그림을 그릴 수 있는 것은 생성적 대립 신경망이라고 불리는 GAN이라는 모델 덕분이야. 인공지능은 사실 사람의 눈이나 코가 어디에 있는지 모르기 때문에 픽셀의 RGB 색상을 학습하면서 엄청나게 많은 공통점을 찾아내는 방식을 사용하는데, 이것이 바로 GAN이라는 알고리즘의 기본 구현 방식이야.

달리2는 GAN을 기반으로, 클립이라고 불리는 보다 획기적인 기술을 적용했는데, CLIP대조 학습-이미지 사전 훈련의 약자로 이미지와 텍스트를 동시에 학습하도록 되어있어 학습을 하면 할수록 텍스트와 유사한 그림을 그릴 수 있게 된다고 해.

즉 일반적으로 이미지를 딥러닝 하기위해서는 매우 많은 레이블을 입력해야하고, 인공지능이 “얼굴”이라는 이미지를 인식하기 위해서는 “얼굴”이라는 라벨이 달린 엄청나게 많은 이미지를 학습해야 하는데, 달리2의 알고리즘인 CLIP은 라벨이 달린 이미지 없이도 텍스트와 이미지를 동시에 학습하면서 판단을 하기 때문에 학습이 많아질 수록 보다 정교한 그림을 그릴 수 있게 되는거야.

생성형 AI의 미래

의료 초고해상도 사진

GAN을 활용하면 이미지의 누락된 부분을 복원하거나, 업스케일링을 통해 해상도가 낮은 이미지를 초고해상도 이미지로 변경할 수 있고, 노이즈를 제거하는 것도 가능하기 때문에 의료 분야의 주목을 받고 있어. 대표적으로 MRI의 경우 품질을 높이기 위해서는 방사선의 양을 높일 수 밖에 없는데, GAN을 활용해 해상도를 높일 수 있다면 방사선의 양을 최소한으로 사용하면서도 높은 해상도의 이미지를 얻을 수 있어. 하지만 현재의 단계에서는 인공지능이 이미지를 인위적으로 생성할지도 모르기 때문에 조심스럽게 연구를 하고 있는 단계야.

마케팅 업계의 도입

로즈버드의 토킹헤드
로즈버드의 토킹헤드

로즈버드AI라는 업체는 가상의 패션 모델을 만들어주는 인공지능을 선보인 스타트업인데, 이와 함께 토킹헤드라는 앱도 선보였어. 이 앱에 적용된 기술은 이미지 뿐 아니라 애니메이션까지 적용이 되는 기술이었는데, 이 외에도 텍스트를 가상 아바타가 나오는 비디오로 변환시킬 수 있는 신디시아라는 스타트업도 있어.

기술 서비스

런웨이에이엠엘이라는 스타트업은 동영상에 등장하는 인물만 살리고 배경은 제거하거나, 배경만 남기고 인물도 살릴 수 있는 GAN 인공지능을 구독 서비스로 제공하고 있는데, 이 기술을 활용하면 사람이 많은 해변에서도 마음껏 촬영하고 모델만 살릴 수 있다고 해. 이 외에도 GAN은 게임이나 이커머스 등에서도 사용이 가능하고 hotpot.ai와 같이 이미지 생성를 생성하는 서비스 자체를 제공하는 경우도 계속해서 늘어나고 있어.

미드저니

미드저니는 채팅 및 커뮤니티 앱인 디스코드를 통해서만 접근할 수 있는 이미지 생성 서비스야. 디스코드를 통해 “미드저니” 커뮤니티에 들어가면 뉴비라는 채널이 있는데, 이 채널에서 /imagine 이라는 커맨드를 입력하고, 이 뒤에 생성하고 싶은 단어를 영어로 나열하면 그림을 생성할 수 있어.그림

디스코드의 미드저니 채널에서 단어를 입력하면 잠시 후에 4개의 그림이 만들어져 나오는데, 이 4개의 그림들 중 하나를 골라 큰 이미지 파일로 만들거나, 해당 이미지를 기반으로 새로운 이미지를 생성할 수도 있어.

미드저니는 기본적으로 25개 정도의 이미지를 무료로 만들 수 있고, 100개까지는 월 10달러, 월 30달러로 이미지를 무제한으로 만들 수 있어. 월 30달러 플랜 부터는 상업적 사용도 가능한데, 생성 이미지가 900장이 넘어가는 경우에는 그림의 생성속도에 제한이 생긴다고 해. 또 미드저니를 통해 만들어 진 이미지와 키워드는 기본적으로 공개하는 것이 원칙이지만, 이미지와 키워드를 비공개로 하고 싶다면 추가로 20달러를 지불하면 돼.

일러스트 생성 AI

인공지능이 그림을 그려주거나, 인공지능이 작곡을 하거나, 인공지능이 삼행시를 짓는 등의 생성형 인공지능 기술은 발전이 빠르게 이루어지고 있는데, 이제는 당장 프로젝트에 적용할 수 있을 정도로 개선이 되고 있어.

최근에는 일러스트 업계가 인공지능으로 인해 떠들썩 해졌는데, 노블AI라는 회사의 서비스가 출시되었기 때문이야. NovelAI Image Generation라는 생성형 AI 서비스는 “아니메” 스타일의 일러스트를 상당한 수준의 퀄리티로 생성하는데, 한 장의 AI 일러스트를 만드는 시간도 약 1분 정도로 매우 짧다고 해.

노블AI의 이미지 생성형 AI 서비스는 월 10달러짜리 구독서비스에 가입하면 일러스트를 생성할 수 있는 포인트를 제공해주는데, 이 포인트를 그림 한 장당 가격으로 계산해보면 겨우 15원에 불과해. 즉 일반적으로 일러스트레이터들이 받는 작업비용 보다 앞도적으로 저렴한 가격으로 제공하면서도, 상당한 퀄리티의 일러스트를 제공하고 있는 거야.

노블AI와 스테이블 디퓨전 – 출처: 코딩애플

스테이블 디퓨전과 생성형 AI 산업

천만 명이 사용 중인 생성형 AI

마이크로소프트로부터 투자받은 오픈AI의 달리2는 매일 150만 명이 200만 개의 이미지를 생성하고 있고, 미드저니는 디스코드의 공식 서버 멤버 수가 300만 명을 돌파했는데, 여기에 스테이블 디퓨전이라는 AI를 개발한 <ㄴ=Stability AI>스태빌리티AI라는 스타트업은 벤처캐피털인 코아츄 매니지먼트 등으로부터 1억 100만 달러를 투자받았어. 즉 약 10억 달러의 기업가치를 가진 유니콘으로 평가받은 거야.

스태빌리티AI CEO 이마드 모스타크(왼쪽)
스태빌리티AI CEO 이마드 모스타크(왼쪽)스케일AI

스태빌리티AI의 CEO인 이마드 모스타크는 최근 AI 업계가 가장 주목하는 인물인데, 스테이블 디퓨전을 오픈소스로 공개하면서 테크 커뮤니티에서 큰 환영을 받기도 했어. 그가 스테이블 디퓨전을 오픈소스로 공개한 것은 AI의 발전이 워낙 빨라 오히려 모두 공개하는 것이 더욱 안전하다고 믿기 때문이라고 해.

스테이블 디퓨전은 깃허브에 오픈소스로 공개되어 있는데, 원하는 사람이라면 누구나 이 프로그램이 어떤 데이터 세트로 되어있고, 코드가 어떻게 짜여져있고, 어떤 알고리즘으로 만들어졌는지를 모두 볼 수 있어. 또 오픈소스인 만큼 무료로 다운로드 받아 프로젝트의 디자인에 사용하거나 영화, 비디오 게임, 이커머스 등의 관련 애플리케이션에 적용할 수도 있어. 즉 스태빌리티AI는 개발자들에게 이미지 생성 AI를 만드는 도구를 쥐어준 셈이야.

스태빌리티AI는 스테이블 디퓨전으로 제작된 결과물에 대해서도 처음부터 창작물에 어떠한 개입도 하지 않고, 최소한의 필터만 적용하겠다고 했는데, 오픈소스인 만큼 커뮤니티의 개발자와 사용자들을 믿고 자율성과 자정능력을 존중한다는 입장이라고 해.

스테이블 디퓨전은 현재 2만 명의 오픈소스 개발자 커뮤니티가 되었는데, 지금도 그 수는 점점 늘어나고 있어. 올해 8월부터 10월말 사이에 공개된 코드를 내려받은 사람만 20만 명에 달하고, 스테이블 디퓨전의 알고리즘으로 생성한 이미지가 수백만 장에 이른다고 하는데, 스태빌리티 AI는 스태빌리티 디퓨전에 접근할 수 있는 모든 채널과 커뮤니티를 통해 하루에 1,000만 명에 달하는 사용자들이 서비스를 사용 중이라고 밝혔어.

스태빌리티AI는 개발자들이 자사의 AI 시스템에 더 쉽게 접근할 수 있도록 드림 스튜디오라는 API도 내놓았는데, 시스템 내부의 복잡한 내용을 몰라도 개발자들이 쉽고 빠르게 사용할 수 있도록 반복적인 작업 규칙 등을 매뉴얼로 정리한 거야. 스태빌리티AI에 따르면 지금까지 총 150만 명의 개발자가 드림 스튜디오로 1억 7000만 개의 이미지를 생성했다고 해.

스태빌리티AI는 현재 데이터 센터 구축에 사용되는 4,000여 개에 달하는 고가의 엔비디아 A100 GPU 칩셋과 AWS 서비스를 활용해서 스테이블 디퓨전을 훈련시키고 있는데, 클라우드 비용에만 5,000만 달러를 사용했다고 해. 이런 엄청난 자원을 투입해서 슈퍼컴퓨터와 맞먹는 성능으로 운영 중인 스테이블 디퓨전은 어마어마한 운영비용 때문에 벤처캐피털을 통해 투자 유치에 나선 것으로 추정돼.

스태빌리티AI는 앞으로도 정부 및 국제기구 등과의 기술 제공 파트너십을 맺고, 맞춤형 AI 모델을 만들어 아예 특정 클라이언트의 AI 관련 기술 인프라를 구축하는 사업 모델을 만들 예정이라고 하는데, 더 많은 기업과 관련 프로젝트를 추진하면서 현재의 수익원을 더 확대할 계획으로 보여. 물론 개인이나 작은 기업이 가볍게 사용할 수 있는 서비스도 내놓을 예정인데, 음악, 영상, 언어, 3D 등 이미지 외의 다양한 창작물을 만들 수 있는 서비스를 제공하고, 시장이 앞으로 얼마나 더 커질 수 있을지를 테스트할 것으로 예상되고 있어.

무한 경쟁

생성형 AI 산업은 무한 경쟁으로 접어들고 있는데, Text-to-Image, 즉 텍스트를 이미지로 변환시켜주는 생성형 AI를 최초로 발표한 곳은 “오픈AI”였지만, 최근 이 산업의 붐을 주도하고 있는 것은 오픈소스인 “스테이블 디퓨전”을 만든 “스테빌리티AI”야. 이 업체는 세계 최고 권위의 AI학회인 “CVPR 2022”에서 발표된 “Latent Diffusion Model”을 바탕으로 AI커뮤니티와의 협업으로 기존보다 훨씬 빠르면서도 더 적은 비용으로 생성형 AI를 만들어내면서, 구글이나 메타같은 거대기업이 아닌 AI 연구자들의 협업만으로도 엄청난 성과를 낼 수 있다는 것을 보여줬어. 게다가 이 모든 결과를 오픈소스로 공개해서 원하는 사람은 누구라도 스테이블 디퓨전의 모델을 사용할 수 있게 했어.

스테이블 디퓨전이 오픈소스로 공개되자마자 “달리2″도 9월 말에 사용자를 제한적으로 받는 것을 중단하고 누구든지 사용할 수 있게 정책을 바꿨는데, 이런 배경 때문에 “Text-to-Image”라는 기술이 빠르게 대중화되고 있어.

수익형 비즈니스

“미드저니”와 “스테이블 디퓨전”은 같은 생성형 AI 기술이지만 시장에 던진 충격은 달랐는데, 스테이블 디퓨전을 바탕으로 만든 “노블AI”의 경우에는 보다 직접적이고 구체적으로 파괴하는 시장이 있었고, 새로운 시장을 만들어낼 가능성을 보여줬기 때문이야. 즉 기술이 아니라 그 기술로 어떤 시장을 공략하고 돈을 벌 수 있는지가 중요했던 거지.

하지만 생성형AI가 의미를 갖기 위해서는 기존의 시장을 파괴하는 것이 아니라 기존에는 이를 사용하지 못했던 사람들이 기꺼이 돈을 내도록 만들 수 있어야 겠지? 물론 경쟁력이 낮은 일러스트레이터들은 시장에서 퇴출될 수 밖에 없겠지만, 저작권에 민감한 기업이나 유니크한 일러스트가 필요한 소비자라면 기존의 뛰어난 일러스트레이터에게 비용을 지불하고 이용하게 될꺼야.

높아지는 데이터의 중요성

생성형 AI는 완전히 새로운 것을 창조하는 것이 아니라 이전에 수없이 만들어놓은 기존의 데이터를 참고해서 그 스타일을 모방하는 방식이야. “노블AI” 역시 아니메 스타일의 결과물을 원하는 사람들을 위해서는 그런 스타일의 데이터를 학습시켜야 했는데, 이전에도 한 회사가 채팅 AI에게 불법적인 방법으로 학습을 시킨 것이 알려져 논란이 된 적이 있어. 그런데 노블AI도 ‘불펌’사이트의 데이터를 사용했다는 것이 알려지면서 논란이 되기도 했어.

결국 생성형 AI가 만든 이미지는 해당 이미지에 저작권 문제가 생길 가능성을 내포할 수 밖에 없는데, 실제로 생성형 AI가 생성하는 많은 이미지들에는 대표적인 이미지 저작권 기업인 “게티 이미지“의 워터마크가 함께 생성되는 경우가 많다고 해.

결국 안정적인 생성형 AI 서비스를 위해서는 우수하고 저작권 문제가 없는 데이터를 만들어내는 일이 중요해질 수 밖에 없는데, 최근 AI 업계에서는 “합성 데이터“라고 불리는 데이터가 많이 사용되고 있어. “합성 데이터”는 AI가 만든 데이터를 말하는데, 데이터를 취득하는 비용이 높기 때문에 실제 데이터가 아닌 인위적인 데이터를 만들어서 학습에 사용하는 거야.

관련 링크

달리, 스테이블 디퓨전, 미드저니 사용 방법
http://www.aitimes.com/news/articleView.html?idxno=147487
스테이블 디퓨전과 프롬프트 사용법
https://tilnote.io/pages/63353b11cb80d43d62487011
스테이블 디퓨전 설치하기
https://skyksit.com/useful/install-stable-diffusion-for-windows/#Stable-Diffusion-%EC%9D%B4%EB%9E%80
Stable Diffusion 윈도우 OS 에 설치하기
https://tgd.kr/s/jungtaejune/66647322?page=1
스테이블 디퓨전 원클릭 설치 프로젝트
https://dingdo.tistory.com/1052
https://github.com/cmdr2/stable-diffusion-ui
스테이블 디퓨전으로 멋진 그림을 그리는 방법
https://doooob.tistory.com/400?category=1045641
https://andys.page/posts/how-to-draw/
스테이블 디퓨전 드림 스튜디오
https://beta.dreamstudio.ai/

답글 남기기