
진짜와 가짜의 경계
최근 AI에 요청해서 사진을 지브리 스타일로 바꾸거나, 영상을 만들어 유튜브 채널로 활용하는 AI 콘텐츠가 폭발적으로 늘고 있다.
짧은 프롬프트 하나로 영화 같은 장면을 만들어내는 시대가 된 것이다.
나도 이 블로그를 꾸밀 때 ChatGPT에 요청해서 얻은 이미지를 직접 수정해서 활용한 점이 있는데 AI에는 텍스트로 된 프롬프트를 입력하여 요청을 한다.
그렇다면 ChatGPT는 이 텍스트로 어떻게 그림을 그릴 수 있는 걸까?
DALL·E
핵심은 DALL·E
이다.
DALL·E는 OpenAI가 개발한 이미지 생성 모델인데 현재는 3.0 버전까지 나왔다.
ChatGPT가 사용자가 입력한 문장의 의미를 해석하고, 이를 의미 구조로 바꿔 DALL·E에 전달하면 이 정보를 바탕으로 DALL·E가 그림을 그린다.
DALL·E의 기반은 확산 모델이다.
동작 과정은 다음과 같다.
- 무작위한 노이즈 이미지를 생성
- AI가 텍스트의 의미를 참고해 노이즈를 조금씩 수정
- 수백 단계의 반복을 거쳐 결과 이미지 완성
DALL·E 3
DALL·E 3는 이전 버전들과 달리 ChatGPT 내부에 직접 통합된 이미지 생성 모델이다.
이전의 DALL·E 2는 별도의 페이지에서만 프롬프트를 입력해야 했지만 DALL·E 3는 ChatGPT의 대화 맥락을 그대로 활용할 수 있다.
ChatGPT가 사용자의 의도를 파악하고 장면의 구도, 색감, 분위기까지 텍스트로 구체화한 뒤, 그걸 DALL·E 3에게 전달해 바로 이미지를 생성한다.
이 덕분에 DALL·E 3는 짧은 프롬프트만으로도 의도에 맞는 이미지를 만들어낼 수 있는 것이다.
DALL·E 3의 변화
구분 | DALL·E 2 | DALL·E 3 |
---|---|---|
프롬프트 이해력 | 짧은 문장은 불명확하게 인식 | 복잡한 자연어 문장도 정밀하게 해석 |
ChatGPT 통합 | 별도 도구 | ChatGPT 대화창 내 바로 생성 가능 |
텍스트 정확도 | 이미지 속 글자 깨짐 잦음 | 로고, 간판 등 텍스트도 정확히 표현 가능 |
리라이팅 기능 | 수동 입력 필요 | ChatGPT가 자동으로 프롬프트 최적화 |
편집 기능 | 제한적 | “이 부분만 수정해줘” 같은 자연어 편집 지원 |
특히 텍스트 인식 능력이 크게 개선돼서 이미지 속 간판, 문구, 포스터 같은 글자도 자연스럽게 들어간다.
또한 ChatGPT와 결합되어 있기 때문에 “이 배경에 사람 한 명 더 추가해줘”, “색감만 따뜻하게 바꿔줘”처럼 대화형 편집도 가능하다.
진짜와 가짜의 경계
이러한 기술들이 발전할수록 진짜 예술과 가짜 예술의 경계가 흐려지고 있다.
AI가 만든 이미지는 점점 더 정교해져 이제는 사람의 손으로 그린 그림과 구분하기 어려울 정도다.
그 과정에서 원작자의 작품이 무단으로 학습되어 생성되는 문제로 심각한 저작권 분쟁이 발생하기도 한다.
기술을 활용하는 만큼 그 속의 책임과 윤리도 함께 인식해야 한다.
윤리적인 기준을 잘 지킨다면 AI는 예술의 범위를 넓히는 긍정적인 도구가 될 수 있다고 생각한다.
참조 링크