포토북 자동 추천 — 사진 품질 AI로는 안 된다

2026-04-27 · AI팀 · 포토북 30권 · 사진 3,985장 · AI 5종 · 측정 19,840번

📌 결론

"AI를 더 좋은 걸로 갈아끼우자"는 답이 아니다.

2020년~2025년 최신 AI 5종 모두 사용자가 뽑은 사진과 안 뽑은 사진을 거의 구분 못 했다.

사용자가 사진을 빼는 진짜 이유는 품질이 아니라 "비슷한 컷이 이미 있어서" 같은 다른 기준이기 때문.

🔍 우리가 시험한 5개 AI

AI나온 시기한 줄 소개
PaQ2PiQ2020년현재 우리 회사가 쓰는 AI
TOPIQ-NR2024년최신 사진 품질 평가
TOPIQ-NR-FACE2024년얼굴 사진 특화
MANIQA2022년미적 평가
LAION-Aes2023년미학 점수
HumanAesExpert2025년최첨단 인물 미학 AI (12개 점수 동시)

📐 어떻게 검증했나 (4단계, 4일)

단계한 일
1️⃣ 정답지 만들기실제 결제완료 포토북 30권 → 수록 2,949장 + 미수록 1,036장 = 총 3,985장
2️⃣ AI 선정2020~2025년 AI 28종 조사 → 5종 선정 (가벼운 4 + 참조 1)
3️⃣ GPU 서버 구축AWS GPU 서버 + 사내 NAS ↔ AWS 통로 (실제 운영 환경과 동일)
4️⃣ 측정5개 AI × 사진들 = 총 19,840번 측정 / 0 에러

📊 결과 1 — 4개 AI 모두 동전 던지기 수준

📐 점수 읽는 법: 0.5 = 동전 던지기 · 0.7 = 쓸 만함 · 0.85 = 우수 · 1.0 = 만점

모든 AI가 0.5 근처 = AI가 사용자 선택을 거의 알아맞히지 못함.

📊 사진 점수 분포 — 파랑(수록) vs 빨강(미수록)

두 색이 겹치면 = AI가 둘을 못 구분.

TOPIQ-NR-FACE

TOPIQ-NR

MANIQA

LAION-Aes

4개 모두 파랑/빨강이 거의 완전히 겹침. 점수만으로는 가를 수 없다.

📊 결과 2 — 가장 비싼 AI도 마찬가지

2025년 최첨단 AI(HumanAesExpert)에 사진 300장 시험. 한 장에 13개 점수를 매기는 똑똑한 AI인데도...

13개 점수 전부 0.5 근처 — 동전 던지기 수준.

→ 또 파란색·빨간색이 완전히 겹침. 가장 비싼 AI도 답이 아니었다.

💡 왜 이렇게 됐을까

한 행사의 사진은 다 품질이 비슷하다.

돌잔치/여행/결혼식 — 같은 카메라, 비슷한 조명, 비슷한 거리. 사진 50장이 다 "맛있어 보이는 케이크"인 상황에서 어느 케이크가 더 맛있는지 가르는 건 원래 어려운 일.

사용자가 사진을 빼는 진짜 이유 ≠ 품질

→ 다 "사진들 사이의 관계"로 결정. 한 장씩 점수 매기는 AI는 따라잡을 수 없다.

🎯 그래서 어떻게?

방향을 바꿔야 한다.

👉 새 접근 제안서 참조

✅ 이 결과를 믿어도 되나?

점검 항목이 PoC
정답지의 객관성실제 사용자 결제 완료 포토북 (임의 판정 X)
샘플 선택최근 2일 결제 포토북 30권 전부 (cherry-pick X)
측정 규모5개 AI × 사진 = 19,840번 / 0 에러
여러 방식 검증점수 비교 + 분포 그래프 + AI 간 의견 비교 — 모두 같은 결과
실패도 기록시행착오 9건 그대로 공개 (조작 X)