생성형 AI는 최근 엄청난 발전을 하고 있습니다. 그리고 우리의 삶에도 이제 많은 영향을 끼치고 있는데요.
다만 생성형 AI에 글씨를 생성하는것은 어려운 일입니다. 이뿐마 아니라 우리에게 널리 알려진 거섳럼 생성형 AI는 왜 손이나 글씨를 잘 만들지 못할까요?
생성형 AI가 철자를 잘못 만드는 이유
기본적으로 생성 인공지능(AI)이 이미지 내부에 단어를 생성하는 '타이포그래피(typography)'에 약한 이유가 실제로 글자를 인식하지 못하기 때문이라는 것입니다.대형언어모델(LLM)도 시를 짓고 논문도 작성해 줄 수 있지만, 역시 글 자체를 이해하는 것은 아닙니다.
이에 따르면 현재 대부분의 이미지 생성 AI는 이미지 속 글자를 생성할 때 철자를 엉망으로 표현하는 경향이 있습니다. 이 분야의 최강으로 꼽히는 '이디오그램'을 비롯해 최근에는 '달리'나 '스테이블 디퓨전' 등 역시 동일한 문제를 가지고 있는데요.
이미지 생성기와 텍스트 생성기의 기본 기술은 서로 다르지만, 두 모델 모두 철자와 같은 세부 사항에 대해 비슷한 어려움을 겪게 됩니다.
이미지 생성기는 노이즈를 제거하며 이미지를 재구성하는 '확산(Diffusion) 모델'을 사용하는데요.이미지 생성기는 픽셀 중 많은 부분을 포함하는 패턴을 주로 학습하며, 이미지 안에 포함된 글은 그리 중요한 부분으로 인식하지 않습니다.
즉 AI가 철자와 손을 제대로 묘사하지 못하는 대표적 원인은 ‘과도한 데이터 학습량’이라는 지적입니다. AI의 성능을 높이기 위해 학습시킨 수많은 이미지 데이터가 오히려 AI에게 혼돈을 줄 수 있다는 것입니다.
이미지 생성의 원리
이미지 생성 AI의 두뇌를 담당하는 기술은 ‘적대적 신경망(GAN)’입니다. GAN은 정교한 거짓 데이터를 만드는 ‘생성자’와 이 데이터의 진위를 파악하는 ‘감별자’가 서로 경쟁하는 AI알고리듬인데요. 이미지 생성 AI 중 가장 큰 인기를 끌고 있는 ‘미드저니’나 챗GPT 개발사 ‘오픈AI’에서 개발한 ‘DALL·E’ 역시 GAN 기반으로 제작되었습니다.
이 GAN 기반 AI에게 ‘사람의 손을 그려 달라’는 주문을 입력하면, AI는 학습한 수천 만 개의 데이터를 조합해 가장 명령과 가까운 그림을 그리게 됩니다. 이때 사람 손은 양 손을 깍지 끼거나 악수하는 모습, 주먹 진 모습 등 천차만별이다. 눈, 코, 입, 귀로 비교적 비슷한 구조를 가진 사람 얼굴보다 훨씬 학습이 어려울 수밖에 없습니다. 때문에 GAN의 감별자는 데이터 진위 파악에 혼동이 생기게 되고, 뒤틀린 손 그림이 만들어지게 됩니다.
AI분야 전문가는 “이미지 생성 AI는 워낙 다양한 데이터를 학습하다보니 오히려 세부 묘사엔 어려움을 겪을 수 있다”며 “손뿐만 아니라 ‘글자’ 그림을 AI에게 주문할 경우에도 이와 유사한 현상이 발생하는데, 인간은 글자 하나하나를 필체, 크기, 자음, 모음 등으로 구별하지만 AI는 이를 ‘알파벳’, ‘한글’, ‘한자’ 등 하나의 문자로 뭉뚱그려 인식하기 때문”이라고 설명했습니다.
즉, 텍스트의 경우도 대형언어모델(LLM)이 인간처럼 프롬프트를 읽고 응답하는 것처럼 보일 수 있지만, 실제로는 수학적인 원리를 사용해 패턴을 파악하고 가장 확률이 높은 것을 늘어놓는 것에 불과합니다. 이 때문에 LLM은 '확률론적인 앵무새'라고도 불리기도 합니다.
즉 AI 모델은 훈련 데이터에서 본 것과 유사한 것을 재현하도록 만들어졌지만, 단어의 스펠링이나 손가락의 개수에 대한 규칙은 기본적으로 알지 못한다는 설명입니다.
이를 해결하기 위해 개발자들은 AI에 손이 어떻게 생겼는지 등을 가르치기 위해 특별히 설계한 훈련 모델로 데이터셋을 보강해 문제를 개선하고 있습니다. 그러나 전문가들은 철자법 문제는 더 어럽다고 하네요.
기본적으로 모델 훈련으로 철자나 문자 인식의 성능을 개선할 수는 있지만, 불행하게도 영어는 정말 복잡하다고 합니다. 그뿐만 아니라 한글과 같은 다른 언어로 확대하면 학습량은 엄청나게 늘어나게 됩니다.
현재 업체들(어도비 파이어플라이 등)의 일부 모델은 이미지 속에 텍스트를 전혀 생성하지 않도록 학습하도록 안내 합니다. 즉 타이포그래피를 지시하면 흰색 표시만이 출력됩니다.
전문가들은 AI는 발전하고 있으며, 의심의 여지는 없다, 그러나 이 기술은 너무 과장돼 있다라고 한목소리를 냅니다.
기본적으로 생성형 AI의 한계를 인식하고 올바르게 사용하는 방법을 읽히는 것이 중요할 것 같네요. 현실적으로는 이미지를 그리고 포토샵 등에서 철자는 후처리하는 형태로 진행해야할 것 같습니다.