진짜와 가짜의 경계

최근 AI에 요청해서 사진을 지브리 스타일로 바꾸거나, 영상을 만들어 유튜브 채널로 활용하는 AI 콘텐츠가 폭발적으로 늘고 있다.
짧은 프롬프트 하나로 영화 같은 장면을 만들어내는 시대가 된 것이다.

나도 이 블로그를 꾸밀 때 ChatGPT에 요청해서 얻은 이미지를 직접 수정해서 활용한 점이 있는데 AI에는 텍스트로 된 프롬프트를 입력하여 요청을 한다.

그렇다면 ChatGPT는 이 텍스트로 어떻게 그림을 그릴 수 있는 걸까?

DALL·E

핵심은 DALL·E이다.

DALL·E는 OpenAI가 개발한 이미지 생성 모델인데 현재는 3.0 버전까지 나왔다.
ChatGPT가 사용자가 입력한 문장의 의미를 해석하고, 이를 의미 구조로 바꿔 DALL·E에 전달하면 이 정보를 바탕으로 DALL·E가 그림을 그린다.

DALL·E의 기반은 확산 모델이다.
동작 과정은 다음과 같다.

  1. 무작위한 노이즈 이미지를 생성
  2. AI가 텍스트의 의미를 참고해 노이즈를 조금씩 수정
  3. 수백 단계의 반복을 거쳐 결과 이미지 완성

DALL·E 3

DALL·E 3는 이전 버전들과 달리 ChatGPT 내부에 직접 통합된 이미지 생성 모델이다.
이전의 DALL·E 2는 별도의 페이지에서만 프롬프트를 입력해야 했지만 DALL·E 3는 ChatGPT의 대화 맥락을 그대로 활용할 수 있다.

ChatGPT가 사용자의 의도를 파악하고 장면의 구도, 색감, 분위기까지 텍스트로 구체화한 뒤, 그걸 DALL·E 3에게 전달해 바로 이미지를 생성한다.

이 덕분에 DALL·E 3는 짧은 프롬프트만으로도 의도에 맞는 이미지를 만들어낼 수 있는 것이다.

DALL·E 3의 변화

구분 DALL·E 2 DALL·E 3
프롬프트 이해력 짧은 문장은 불명확하게 인식 복잡한 자연어 문장도 정밀하게 해석
ChatGPT 통합 별도 도구 ChatGPT 대화창 내 바로 생성 가능
텍스트 정확도 이미지 속 글자 깨짐 잦음 로고, 간판 등 텍스트도 정확히 표현 가능
리라이팅 기능 수동 입력 필요 ChatGPT가 자동으로 프롬프트 최적화
편집 기능 제한적 “이 부분만 수정해줘” 같은 자연어 편집 지원

특히 텍스트 인식 능력이 크게 개선돼서 이미지 속 간판, 문구, 포스터 같은 글자도 자연스럽게 들어간다.
또한 ChatGPT와 결합되어 있기 때문에 “이 배경에 사람 한 명 더 추가해줘”, “색감만 따뜻하게 바꿔줘”처럼 대화형 편집도 가능하다.

진짜와 가짜의 경계

이러한 기술들이 발전할수록 진짜 예술과 가짜 예술의 경계가 흐려지고 있다.
AI가 만든 이미지는 점점 더 정교해져 이제는 사람의 손으로 그린 그림과 구분하기 어려울 정도다.
그 과정에서 원작자의 작품이 무단으로 학습되어 생성되는 문제로 심각한 저작권 분쟁이 발생하기도 한다.

기술을 활용하는 만큼 그 속의 책임과 윤리도 함께 인식해야 한다.
윤리적인 기준을 잘 지킨다면 AI는 예술의 범위를 넓히는 긍정적인 도구가 될 수 있다고 생각한다.

참조 링크