Paint by Example 논문 리뷰, Paint by Example 코드 리뷰
Hugging face demo를 사용함
아키텍처 구조를 봐도 알겠지만 CLIP 인코더를 통과하기에 CLIP에서 학습되지 않은 데이터는 표현하지 못할 것으로 보인다.
원본
곰돌이
세일러문
그냥도 해보고 상체 쪽만 확대해서 했는데도 안 된다.
그림체가 달라서 그런걸까? 오바마는?
약간 애매...
좀 더 그럴듯한 이미지 조합으로 해보자
끔찍하군...
사실 이건 예정된 결과였다. 훈련 데이터셋인 Open Images는 대부분이 natural 이미지인 데다 클래스가 카테고리화되어 있기 때문에 특정 인물에 작동하지는 않는다.
그러면 natural 이미지 + 애매한 카테고리의 동물로 해보자.
엄청 자연스러운 이미지는 아니지만 예상 보다는 괜찮기도 하고?
무난한 natural 이미지 + 무난한 동물
괜찮긴 하지만 약간 부자연스러운...
배경 이미지
이 둘은 너무 자연스럽게 뽑혀서 좀 신기했다.
역시 얘는 잘 안되고...
몇 번 해보다 보니깐 약간 배경이 비슷하거나 배경이 없는 이미지가 좀 자연스럽게 잘 섞이는 느낌인데?
맨 밑 이미지가 제일 자연스러운 걸 보면 뭔가... 알다가도 모르겠다...
그나마 제일 괜찮게 뽑힌 자동차와 곰돌이를 이상한 모양의 마스크에 해보면...
먼저 곰돌이
귀여워서 그런가 신체 절단된 것만 빼면 다 좋게 나오는 듯...
자동차
총평 : 가끔 진짜 잘 뽑히는 것도 있긴 하지만 범용성이 부족하고, 입력 이미지가 카테고리화 되어서 시각적 특징을 잘 보존하지 못함.
'Deep Learning > Diffusion' 카테고리의 다른 글
Stable Diffusion, SDXL U-Net Architecture 살펴보기 (2) | 2023.10.05 |
---|---|
DiffStyler 써보기 (0) | 2023.01.17 |
DAAM 써보기 (1) | 2023.01.13 |