ChatGPT는 이제 끝이다? 이젠 DLM이 대세? 스테이블리티 AI의 스테이블 디퓨전 기반? 작동방식은?

SOMETHING MAKES US BRIGHT|2025. 3. 7. 00:08
반응형

확산 모델은 주로 이미지 생성 및 기타 컴퓨팅 비전 작업에 사용되는 생성형 모델입니다. 확산 기반 신경망은 딥 러닝을 통해 무작위 노이즈로 샘플을 점진적으로 '확산'한 다음, 해당 확산 프로세스를 역으로 수행하여 고품질 이미지를 생성하도록 학습합니다.

확산 모델은 생성형 AI의 최전선에 있는 신경망 아키텍처 중 하나로, 특히 Stability AI의 Stable Diffusion, OpenAI의 DALL-E(DALL-E-2부터 시작), Midjourney, Google의 Imagen 등 인기 있는 텍스트 이미지 변환 모델을 예로 들 수 있습니다. 이는 변형 자동 인코더(VAE), 생성형 적대 신경망(GAN) 및 PixelCNN과 같은 자기 회귀 모델과 같은 이미지 합성에 사용되는 다른 머신 러닝 아키텍처의 성능과 안정성을 개선합니다.

확산 모델의 직관은 물리학에서 영감을 받아 픽셀을 시간이 지남에 따라 물 한 잔에 퍼지는 잉크 한 방울의 분자와 같이 취급합니다. 잉크 분자의 무작위적인 움직임이 결국 유리 내에서 고르게 분산되는 것과 마찬가지로 이미지에 노이즈가 무작위로 도입되면 결국 TV 화면이 지직거리는 것과 같은 현상이 발생합니다. 인공 지능 모델은 이러한 확산 과정을 모델링한 다음 이를 역으로 학습함으로써 무작위 노이즈 샘플의 '노이즈 제거'를 통해 새로운 이미지를 생성할 수 있습니다.

확산 모델은 이미지 생성 및 인페인팅 및 초고해상도와 같은 기타 이미지 처리 작업과 가장 두드러지게 관련되어 있지만, 그 적용은 오디오 생성, 약물 설계 및 분자 생성을 포함한 다른 영역으로 확장되고 있습니다. 간단하게 설명하기 위해 이 글에서는 이미지 생성에 초점을 맞출 것입니다.
출처 IBM

 

1. 확산 모델이란?

  • 정의: 이미지 생성 및 컴퓨터 비전 작업에 사용되는 생성 모델. 무작위 노이즈에서 고품질 이미지를 생성하도록 딥 러닝을 통해 학습됨.
  • 원리: 이미지를 점진적으로 노이즈로 '확산'시킨 후, 이 과정을 역전시켜 이미지를 생성. 물리학의 잉크 확산 현상에서 영감을 받음.
  • 예시: Stable Diffusion, DALL-E, Midjourney, Imagen 등 텍스트-이미지 변환 모델.
  • 장점: 변형 자동 인코더(VAE), 생성적 적대 신경망(GAN) 대비 성능 및 안정성 우수.
  • 응용 분야: 이미지 생성, 인페인팅, 초고해상도, 오디오 생성, 약물 설계, 분자 생성 등.

2. 확산 모델의 역사 및 이론

  • 초기 연구:
    • 2015년 Sohl-Dickstein 등의 "비평형 열역학을 이용한 심층 비지도 학습" : 랑주뱅 역학을 적용하여 데이터->노이즈, 노이즈->데이터 변환 가능성 제시.
    • 2019년 Yang Song과 Stefano Ermon의 "데이터 분포의 기울기 추정을 통한 생성 모델링": 노이즈 조건부 점수 네트워크 개발. 확률 밀도 함수 기울기(점수 함수) 모델링.
  • 핵심 발전:
    • 2020년 Ho 등의 "노이즈 제거 확산 확률 모델(DDPM)": 변이 추론을 사용하여 Sohl-Dickstein 접근 방식 활용, GAN과 경쟁 가능한 이미지 품질 달성.
  • 최근 동향:
    • 2022년 "잠복 확산 모델을 사용한 고해상도 이미지 합성": 효율성 및 비용 효율성 향상.
    • DDPM 방식이 SGM 방식보다 지배적인 확산 모델 모드로 유지.

3. 확산 모델의 작동 방식

  1. 훈련: 무작위 노이즈가 있는 데이터 포인트를 파괴될 때까지 점진적으로 확산시킨 다음, 해당 확산 프로세스를 역전시키고 원래 데이터 분포를 재구성하는 방법을 학습.
  2. 이미지 생성: 학습한 확산 모델은 순수 노이즈에서 노이즈를 제거하여 학습 데이터와 유사한 새로운 데이터 포인트를 생성.

세 가지 주요 단계:

  • 순방향 확산 프로세스: 훈련 데이터 세트의 이미지를 순수한 노이즈로 변환 (가우스 노이즈 반복 주입). 마르코프 체인으로 공식화.
  • 역확산 프로세스: 모델이 원래의 순방향 확산 프로세스에서 각 이전 단계의 역을 학습.
  • 이미지 생성: 훈련된 모델은 무작위 노이즈 분포를 샘플링하고 가우스 노이즈의 무작위 샘플의 노이즈를 제거하는 방법을 학습한 역 확산 프로세스를 사용하여 이를 고품질 아웃풋으로 변환.

4. 순방향 확산 프로세스

  • 목표: 학습 데이터의 깨끗한 데이터를 순수한 노이즈로 변환. 가우스 노이즈 반복 주입.
  • 마르코프 체인: 각 타임스텝의 결과는 바로 앞의 타임스텝에 의해서만 영향을 받음.
  • 노이즈 추가: 원본 이미지 구조에서 파생되며, 연속되는 스텝마다 노이즈 추가 속도 증가. 모델 학습 안정성 향상.
  • 분산 일정: 각 스텝에서 이미지가 이전 스텝에서 약간 이동하고, 이 이동된 이미지 버전에 노이즈가 추가됨(평균에 따라).
  • 재매개변수화 트릭: 전체 단계별 순방향 프로세스를 거치지 않고도 모든 타임스텝 t에서 xt를 직접 계산

5. 역확산 프로세스

  • 핵심: 순방향 프로세스의 노이즈 스텝 역순을 수행하는 방법을 학습.
  • 신경망: 순수한 가우스 노이즈를 깨끗한 이미지로 제거하는 방법을 학습.
  • 학습 목표: pθ의 아웃풋을 만드는 모델 파라미터 θ를학습하는 것입니다.
    x
    T1
    |
    x
    T
    ).
  • 1
    |
    x
    T
    ), q의 아웃풋을 일치시키는(
    x
    T
  • 손실 함수: VAE의 재구성 손실 항과 밀접한 관련. VLB(변이 하한) 최대화.

6. 가이드 확산 모델

  • 목표: 생성된 이미지를 특정 가이드에 따라 조절.
  • 텍스트-이미지 확산 모델: 텍스트 프롬프트를 통해 출력 조정 (ex: "모자를 쓴 기린").
  • 조건부 점수 함수: 특정 시각적 카테고리 y를 도입, ∇xlogp(x|y) 예측 (카테고리 y에 맞아야 한다는 점을 감안할 때 이미지 x의 가능성을 예측).
  • 가이드 방법:
    • 분류기 가이드 확산: 별도의 분류기 모델 필요.
    • 분류기 없는 가이드: 추가적인 학습 오버헤드가 있지만, 본 적 없는 이미지 카테고리에 대한 제로샷 가이드가 가능.

7. 잠재 확산 모델

  • 문제점: 기존 확산 모델의 느린 속도 및 높은 계산 비용.
  • 해결책: 고차원 픽셀 공간 대신 저차원 잠재 공간에 확산 프로세스 적용.
  • 구조: VAE와 유사한 오토인코더 아키텍처 사용. 인코더 -> 잠재 표현 z 출력, U-Net 아키텍처 -> 표준 확산 모델 입력, 디코더 -> 최종 이미지 크기로 업샘플링.
반응형

댓글()