📌 결론
"AI를 더 좋은 걸로 갈아끼우자"는 답이 아니다.
2020년~2025년 최신 AI 5종 모두 사용자가 뽑은 사진과 안 뽑은 사진을 거의 구분 못 했다.
사용자가 사진을 빼는 진짜 이유는 품질이 아니라 "비슷한 컷이 이미 있어서" 같은 다른 기준이기 때문.
| AI | 나온 시기 | 한 줄 소개 |
|---|---|---|
| PaQ2PiQ | 2020년 | 현재 우리 회사가 쓰는 AI |
| TOPIQ-NR | 2024년 | 최신 사진 품질 평가 |
| TOPIQ-NR-FACE | 2024년 | 얼굴 사진 특화 |
| MANIQA | 2022년 | 미적 평가 |
| LAION-Aes | 2023년 | 미학 점수 |
| HumanAesExpert | 2025년 | 최첨단 인물 미학 AI (12개 점수 동시) |
| 단계 | 한 일 |
|---|---|
| 1️⃣ 정답지 만들기 | 실제 결제완료 포토북 30권 → 수록 2,949장 + 미수록 1,036장 = 총 3,985장 |
| 2️⃣ AI 선정 | 2020~2025년 AI 28종 조사 → 5종 선정 (가벼운 4 + 참조 1) |
| 3️⃣ GPU 서버 구축 | AWS GPU 서버 + 사내 NAS ↔ AWS 통로 (실제 운영 환경과 동일) |
| 4️⃣ 측정 | 5개 AI × 사진들 = 총 19,840번 측정 / 0 에러 |
📐 점수 읽는 법: 0.5 = 동전 던지기 · 0.7 = 쓸 만함 · 0.85 = 우수 · 1.0 = 만점
모든 AI가 0.5 근처 = AI가 사용자 선택을 거의 알아맞히지 못함.
두 색이 겹치면 = AI가 둘을 못 구분.
→ 4개 모두 파랑/빨강이 거의 완전히 겹침. 점수만으로는 가를 수 없다.
2025년 최첨단 AI(HumanAesExpert)에 사진 300장 시험. 한 장에 13개 점수를 매기는 똑똑한 AI인데도...
13개 점수 전부 0.5 근처 — 동전 던지기 수준.
→ 또 파란색·빨간색이 완전히 겹침. 가장 비싼 AI도 답이 아니었다.
한 행사의 사진은 다 품질이 비슷하다.
돌잔치/여행/결혼식 — 같은 카메라, 비슷한 조명, 비슷한 거리. 사진 50장이 다 "맛있어 보이는 케이크"인 상황에서 어느 케이크가 더 맛있는지 가르는 건 원래 어려운 일.
사용자가 사진을 빼는 진짜 이유 ≠ 품질
→ 다 "사진들 사이의 관계"로 결정. 한 장씩 점수 매기는 AI는 따라잡을 수 없다.
방향을 바꿔야 한다.
👉 새 접근 제안서 참조
| 점검 항목 | 이 PoC |
|---|---|
| 정답지의 객관성 | 실제 사용자 결제 완료 포토북 (임의 판정 X) |
| 샘플 선택 | 최근 2일 결제 포토북 30권 전부 (cherry-pick X) |
| 측정 규모 | 5개 AI × 사진 = 19,840번 / 0 에러 |
| 여러 방식 검증 | 점수 비교 + 분포 그래프 + AI 간 의견 비교 — 모두 같은 결과 |
| 실패도 기록 | 시행착오 9건 그대로 공개 (조작 X) |