얼마전 링크드인에서 JSON 파일을 넣어 gpt로 이미지를 생성하는 Prompt를 공유한 게시글을 보게되었고,
나도 이미지 리소스를 JSON 형태로 만들어보기로 했고 어떤 모델이 더 잘 생성이 되는 지 확인하기로 하였다.
1. 숭례문 미니어처 생성하기
생성 프롬프트
{
"style": "isometric 3D render, diorama style",
"theme": "historic architecture and landscape",
"location": "Sungnyemun Gate, Seoul",
"object_count": "single historic gate structure",
"scene_elements": {
"structure": {
"type": "Korean traditional stone gate with wooden pavilion",
"materials": ["gray stone base", "dark wooden beams", "ceramic tiled roof"],
"features": ["arched stone passageway", "multi-tiered roof with dancheong patterns", "stone stairs with handrails"]
},
"landscape": {
"terrain": "gently raised city platform with slight slope",
"vegetation": ["neatly trimmed pine trees", "low shrubs", "circular grass patches"],
"pathway": "stone-paved plaza with patterns in front of gate"
},
"environment": {
"base": "circular platform with stone textures and subtle elevation",
"background": "plain white for clean render"
}
},
"lighting": {
"type": "diffuse ambient with rim lighting",
"shadows": "soft contact shadows under eaves and trees",
"highlights": "subtle sheen on roof tiles and painted surfaces"
},
"rendering": {
"camera_angle": "isometric top-down with slight tilt",
"composition": "centered on the gate structure, floating view",
"quality": "high-poly stylized rendering with clean edges, like a cultural miniature"
}
}
이미지 생성해줘!
ChatGPT
소요시간 : 약 2분
제미나이
소요시간 : 약 18초
미드저니
소요시간 : 약 5초
.... 미드저니의 성능에 감탄 먹음 ㅜㅜ 이거지요. 심지어 5초만에 4개의 후보까지 생성해주니 역시 최고의 이미지 생성 툴이라고 볼 수 있음.
미드저니는 일단 JSON형태가 아닌 문장 형태의 Prompt가 필요하기 때문에 해당 JSON 파일을 GPT의 미드저니 Prompt 봇을 이용해서 문장화해서 돌려보았다. 바로 prompt에서 쓸 수 있는게 아니라 'GPT로 미드저니 prompt 생성 -> 미드저니 돌리기' 이렇게 단계가 2개 있는게 특징일 뿐 소요시간 면과 성능 면에서도 가장 최고를 보여주었다.
실험 결과 미드저니 압승!
2. 뮤지엄산 미니어처 생성하기
이번에는 내가 직접 하나의 장소를 지정하기로 했다.
생각해낸 구조물은 내가 좋아하는 미술관 중 하나인 뮤지엄 산.
넓은 이 공간 중에 가장 특징적인 입구에서의 구조물을 디오라마 스타일로 동일하게 만들어보려고 했다.
생성 프롬프트
먼저, 1번의 프롬프트를 GPT에 놓고 동일 형식으로 원하는 장소 위치, 장소 이름, 원하는 스타일 (디오라마, 실사 스타일)의 JSON Prompt를 제작해달라고 하였다.
{ "style": "isometric 3D render, realistic diorama style", "theme": "modern art installation and tranquil landscape", "location": "Museum SAN Entrance, Oak Valley, Wonju, Korea", "object_count": "one main sculpture with surrounding landscape", "scene_elements": { "structure": { "type": "realistic red abstract sculpture in arch formation", "materials": ["smooth, glossy red-painted metal"], "features": ["intertwined organic shapes", "arching form over pathway", "reflective curved surfaces"] }, "landscape": { "terrain": "stone-paved walkway across shallow mirror pool", "vegetation": ["realistically rendered spring trees", "blooming azaleas", "natural bushes with mixed green foliage"], "pathway": "long, rectangular path made of pale gray stone tiles leading directly to museum building" }, "environment": { "base": "realistic mini-diorama base with shallow water reflecting the sculpture and sky", "background": "soft, gradient sunset sky with pastel pink and blue hues, creating a calm and peaceful mood" } }, "lighting": { "type": "realistic golden hour lighting", "shadows": "soft and elongated shadows cast by sculpture and trees", "highlights": "subtle metallic gleam on sculpture and crisp reflections on water surface" }, "rendering": { "camera_angle": "isometric perspective with slight top-down tilt", "composition": "centered sculpture over water path, with museum building in background", "quality": "ultra-realistic rendering with miniature model aesthetics, sharp details and soft depth-of-field effect" } } 이미지 생성해
ChatGPT
소요시간 : 약 1분 30초
제미나이
소요시간 : 약 35초
미드저니
소요시간 : 약 5초
일단 그 누구도 실제 구조물을 동일하게 표현한 모델은 없다.
그리고 다 디오라마 스타일에서 벗어남... prompt에 무슨 문제가 있는 것일까나...
그리고 왜 GPT는 왜 맨날 저렇게 빛바랜(?) 빈티지 감성으로 이미지를 만들어내는 건지...
고화질 실사같은 이미지 생성에 GPT 활용이 별로인건 일단 확정이다.
다 내가 예상한 결과물에서 벗어난 것이라 모두 만족스럽지는 않지만 그래도 고르라고 한다면 나는 제미나이 이미지를 고를 것 같다. 물론 실제스러움에 대해서는 역시나 미드저니가 앞서 나가는 것 같다. 그리고 미드저니는 Style Reference와 Image Prompt 등 사용할 수 있는 옵션이 많다보니 계속 실험하다보면 내가 원하는 모양대로 나올 것 같기도.
그래서 다시 실험해봤다. 근데 검토결과, 내가 미드저니에서는 Scene을 생성하라는 prompt를 넣어버린 것...
이래서 GPT가 생성한 prompt가 제대로 내 의도대로 생성된 것이 맞는지 검토를 거쳐야할 것 같다..ㅎ 맨날 그냥 넣었음.
생성 결과, 드디어 디오라마 형태가 나왔다.
구조물 자체는 솔직히 실제 장소의 모습과는 다른감이 아직도 있다. 이거는 뮤지엄산 입구 구조물의 사진이 더 많이 필요할 것 같다.
그래도 의도대로 디오라마, 실사, 해당 장소의 구조물 반영이 된 이미지가 나와서 실험 결과는 성공이다!
실험 결과 미드저니를 그냥 결제하라!
댓글