본문 바로가기
@MucKoo's ComfyUI Bible @/#ComfyUI & Story

“Stable Diffusion? 그림 그리는 AI 공장

by MucKOO 2023. 2. 23.
반응형

자, 일단 이렇게 생각하자. Stable Diffusion은 "그림을 그리는 AI 공장"이야.
사람이 말로 설명을 하면, 그걸 보고 그림으로 바꿔주는 기술. 근데 이 공장이 좀 독특해.
수학, 통계, 딥러닝, 확산 공식 이런 거 잔뜩 들고 다녀. 들으면 머리 아픈데, 먹구가 쉽게 풀어줄게.

확산이 뭐냐면… 하나 물어볼게.
물 한 컵에 빨간 색소 한 방울 떨어뜨려봤지? 잠시 후에 색이 점점 퍼지잖아.
그게 바로 "확산(diffusion)"이야. 무언가가 시간과 공간을 따라 퍼지는 현상.

이 개념을 AI가 그림을 그리는 데 쓴다, 말이 되나 싶지? 근데 여기에 천재들이 수학으로 껍질을 씌워서
"색이 퍼지는 방식으로, 노이즈 속에서 그림을 꺼낸다" 이런 발상을 해낸 거야. 기가 막힌거지!!



Stable Diffusion은 뭐냐면…'노이즈 덩어리에서 점점 그림이 드러나는 구조'를 쓰는 AI야.
예를 들어볼게.
처음에는 그냥 모래먼지처럼 아무 의미 없는 노이즈가 있어. 여기에 “바다 위를 나는 갈매기”라는 말을 넣어.
그럼 이 AI는 갈매기 모양이 점점 보이게끔 노이즈를 덜어내기 시작해.
이 과정이 바로 확산(diffusion) 반대 과정이야. 그래서 이름도 "Stable Diffusion" ‘안정된 확산을 거꾸로 수행하는 AI’ 라고 보면 돼.

누가 만들었냐면?
Stability AI: Emad Mostaque라는 분이 세운 회사.
Runway ML: 우리처럼 콘텐츠 제작하는 사람들 위한 툴도 만들고 있어.
훈련 데이터는 LAION-5B라는 인터넷의 어마어마한 이미지-텍스트 짝 데이터야.

그리고 이걸 세상에 거의 오픈소스로 공개했다는 게 핵심이야.
그래서 요즘 Midjourney, DALL·E 말고도 수많은 사람들이 이걸 기반으로 자기만의 AI 그림 도구를 만들고 있지.

Stable Diffusion 모델 구조 – 아주 쉽게 말하면?

 

Stable Diffusion이라는 AI는 3단계로 움직여:

입력 데이터: 네가 쓰는 텍스트 프롬프트 (ex. “벚꽃이 흩날리는 일본 거리”)
확산 과정: 노이즈로 시작해서, 점점 네 프롬프트에 맞게 이미지를 만들어냄
출력 결과: 완성된 이미지가 뚝! 하고 나옴

 



이것도 컴퓨터 입장에선 문장을 숫자로 바꾸고 수식으로 이미지 공간을 계산하고 픽셀로 바꿔서 그림 파일로 저장하는 거야
 Stable Diffusion이 대단한 이유 VRAM 4GB밖에 안 되는 컴퓨터에서도 돌릴 수 있어
→ 일반 사람도 AI 그림에 참여할 수 있다는 뜻이야.

오픈소스
→ 누구나 커스터마이징하고 응용 가능.
→ 그래서 ComfyUI, AUTOMATIC1111 같은 툴들이 줄줄이 나온 거지.
그림뿐만 아니라 음성 인식, 텍스트 처리, 데이터 예측까지 응용이 가능해. 말하자면, AI 그림툴이지만, 확산이라는 원리 덕분에 엄청 유연한 놈이야.

Stable Diffusion은 ‘확산의 수학’을 이용해서
말을 그림으로 바꾸는 AI 그림 공장이다.



그리고 그 공장은
CLIP이라는 번역가가 말귀 알아듣고 모델이 실제로 노이즈를 지우며 그림을 만들고
VAE라는 디자이너가 완성본을 깔끔하게 포장해서 보여주는 시스템이야.

이정도 안것도 대단하다. 엔지니어가 아니니..

https://designmoney.tistory.com/49

 

CLIP: 텍스트와 이미지를 잇는 마법의 붓

옛날, 그러니까 2020년 즈음까지 AI 세상은 좀 답답했어. 디자이너인 우리 같은 창작자들은 머릿속에 "붉은 석양 아래 춤추는 고양이" 같은 비전이 가득한데, AI한테 그걸 설명하려면 손발이 오그

designmoney.tistory.com

 

반응형