본문 바로가기

전체 글

(535)
Delta Denoising Score (DDS) [Project Page] [Github] [arXiv](2023/04/14 version v1) Abstract Score Distillation Sampling을 응용하여 최소한의 수정으로 이미지를 편집할 수 있는 Delta Denoising Score (DDS) 소개 Delta Denoising Score (DDS) Score Distillation Sampling Editing with SDS 판다를 다람쥐로 바꾸기 위해 초기 이미지 z를 판다 이미지로 초기화하고 SDS를 수행했을 때 아래 그림과 같이 점점 흐려지며 세부 사항이 소실되는 것을 볼 수 있다. 우리의 목적은 text로 안내되는 방향을 δtext, 나머지 방향을 δbias라고 했을 때, 두 방향을 분리하여 δtext만 업데이트하는 것이..
Towards Conversational Diagnostic AI (AMIE) AI가 의사를 뛰어넘었다고 한다 ㄷㄷ [arXiv](2024/01/11 version v1) Nature article : Google AI는 인간 의사보다 더 나은 침상 매너를 갖추고 있으며 더 나은 진단을 제공합니다. Abstract Self-play 시뮬레이션 환경을 통해 의료 진단에 최적화된 AI system인 AMIE (Articulate Medical Intelligence Explorer) 제안 AMIE: An LLM based AI System for Diagnostic Dialogue Real-world Datasets for AMIE 미국 의사 면허 시험 객관식 스타일 문제 MedQA MultiMedBench의 QA 질문에 대해 전문가가 작성한 long-form Medical QA 의료..
Object-Centric Diffusion for Efficient Video Editing 배경 영역의 계산을 줄임 [arXiv](2024/01/11 version v1) Abstract 중요한 영역에 더 많은 계산을 할당하여 빠르게 비디오를 편집할 수 있는 Object-Centric Diffusion(OCD) 제안 Off-the-shelf acceleration FateZero 기반 Faster self-attention ToMe, ToMe for Stable Diffusion 더보기 Pairing token locations from inversion FateZero는 inversion으로 얻은 attention map에 의존하기 때문에 inversion과 sampling에서 토큰이 동일한 짝을 이루는 게 중요하다. Inversion 중에 토큰을 병합하고 sampling에서 동일한 짝을 사..
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상 [Project Page] [Github] [arXiv](2023/10/11 version v3) Abstract Inversion을 통해 zero-shot video editing을 수행하는 FateZero 제안 Methods Tune-A-Video 기반 Preliminary: Latent Diffusion and Inversion LDM DDIM Sampling: DDIM Inversion: FateZero Video Editing Inversion Attention Fusion Inversion noise를 직접 사용하면 많은 denoising step에 따른 오류 누적, 높은 cfg 가중치 때문에 프레임 불일치 발..
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation Multi-reward 간에 Pareto 최적인 샘플만 훈련에 사용 [arXiv](2024/01/11 version v1) Abstract Text-to-Image generation을 위한 multi-reward Reinforcement Learning framework인 Parrot 소개. Pareto optimal selection을 사용하여 reward 간의 균형을 맞추기 때문에 Parrot이라는 이름을 붙였다. Preliminary 보상 모델 r의 목적 함수 J: 사전 훈련된 확산 모델 pθ에 대해 표기: Method Parrot Overview Parrot은 Prompt Expansion Network(PEN)와 T2I model로 구성된다. Batch-wise Pareto-optimal Se..
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models [Project Page] [Github] [arXiv](2024/01/10 version v1) Abstract PixArt-α에 Latent Consistency Model과 ControlNet을 통합한 PixArt-δ 소개. LCM in PixArt-δ Algorithm and Modification Training Efficiency and Inference Speedup Training Details Algorithm and Modification LCD Algorithm 가변 guidance scale w 대신 고정된 w를 사용하는 것 외에는 LCM과 똑같다. Effect of Hyper-parameters bs = batch size, w_fix = 고정된 w, w_Embed = 가변 w C..
Score Distillation Sampling with Learned Manifold Corrective (LMC-SDS) [arXiv](2024/01/10 version v1) Abstract Score Distillation Sampling (SDS)를 심층적으로 분석하고 더 깨끗한 gradient를 제공하는 Score Distillation Sampling with Learned Manifold Corrective (LMC-SDS) 제안 Analysis 확산 손실: Score Distillation Sampling: Classifier-free Guidance: SDS를 다음과 같이 다시 쓸 수 있다. w가 높으면 지나치게 채도가 높은 이미지와 아티팩트를 생성하고, 낮으면 지나치게 흐릿한 이미지를 생성한다. 이를 분석하기 위해 SDS rendering function g()가 ID인, 즉 z = θ인 경우에 각 scor..
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts [arXiv](2024/01/08 version v1) [Mamba 논문 리뷰] Model Architecture Switch Transformer에서 사용한 switch 기반 MoE를 사용한다. 또한 원래 2개의 mamba block이 1개의 transformer block과 대응하는데, 위 그림에도 나오듯이 MoE를 추가하면 transformer block과 1대1 대응된다. Main Results
Mamba: Linear-Time Sequence Modeling with Selective State Spaces + Mamba에 대해 매우 잘 설명되어 있는 글 ← 그냥 이거 보세요 SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구조를 제안 State Space Models 필독!!! S4 model Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 ..
시대가 천재를 원할 때. 장송의 프리렌이라는 만화를 봤다. 장송의 프리렌에 등장하는 인물 중 '레르넨'이라는 인물이 있다. 그는 인간 마법사 중 최고라고 불릴 정도로 재능이 있는 사람이다. 하지만 그의 재능에도 불구하고 마왕이 사망한 뒤의 평화로운 시대인 작중 시점에서는 별 다른 명성을 떨치지 못하고 작중 비중도 매우 적다. 언젠지도 기억나지 않을 만큼 오래전에 본 글이 갑자기 기억이 났다. "천재는 시대가 원한다"는 내용의 글이었다.  해당 글에는 오스트리아 빈을 예시로 들었는데, 빈에 그렇게 많은 예술가가 탄생했던 것은 우연이 아니라 빈이 천재적인 예술가들을 원했기 때문이라는 것이었다. 빈이 예술가를 원했고, 그랬기에 관련 인프라나 문화가 형성되었으며, 예술가들이 모여들었고, 예술로 돈을 벌고 대우받을 수 있었고, 예술이 어..
Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 못 할 듯; The Annotated S4 srush.github.io 시작하기 전에 말하자면 이 논문에 관련된 모든 수식을 이해하는 것은 저로서는 불가능한 일이었습니다... 그래서 최대한 수학을 빼고 개념적으로 설명해 보겠습니다. (그래도 많아요) Abstract State Space Model(SSM)에 대한 새로운 피라미터화를 기반으로 이전 접근법보다 효율적인 Structured State Space Sequence model(S4) 제안 Background: State Spaces 일단 state space에 ..
Mixtral of Experts (Mixtral 8x7B) [Project Page] [arXiv](2024/01/08 version v1) Abstract Mistral 7B와 동일하지만 각 레이어가 8개의 feedforward block으로 구성된 Sparse Mixture of Experts (SMoE) 모델인 Mixtral 8x7B 소개 LLaMA2 70B와 대등하거나 그 이상... Architectural details Mistral 7B와 다른점은 32K token의 조밀한 context 길이를 지원하고 FF를 MoE로 대체했다. Mistral 7B Mixtral 8x7B Sparse Mixture of Experts Mixture of Experts: gating network G를 통해 전문가를 선택한다. V-MoE: Transformer의 경우 ..