본문 바로가기

논문 리뷰/etc.

(62)
LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control Abstract실용적인 사용을 위해 더 나은 일반화, 제어 가능성 및 효율성에 초점을 맞춘 portrait animation framework인 LivePortrait 제안 [Project Page][Github][arXiv](2024/07/03 version v1)   Methodology Preliminary of Face Vid2vid Face-vid2vid 논문 리뷰 Appearance feature extractor F,canonical implicit keypoint detector L,head pose estimation network H,expression deformation estimation network ∆,warping field estimator W, generator G로 구..
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking (DeepThinking Systems) Abstract반복 아키텍처, 반복 알고리즘을 통해 작은 문제를 해결할 수 있는 알고리즘을 반복하여 더 크고 복잡한 문제를 해결할 수 있도록 알고리즘 외삽을 수행한다. [Github][arXiv](2022/10/14 version v3)   Methods  2, 3번째 그림처럼 같은 블록이 여러 번 반복되는 아키텍처를 생각해 보자. 임베딩 함수는 p, 출력 헤드는 h, 블록의 반복을 다음과 같이 표기하고 블록의 출력은 이렇게 표기한다. 전체 네트워크를 간단하게 표기할 수 있다. Recall architectures 문제 해결을 위해 오랫동안 생각할 때, 우리는 종종 질문이나 작업을 다시 검토한다.이에 착안하여 이전 블록의 출력에 입력을 연결하여 제공. (차원을 맞추기 위한 컨볼루션 레이어 사용) Prom..
Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND) AbstractDiffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개  [Github][arXiv](2024/05/20 version v1)    Introduction실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다. DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.    Method 알고리즘: 먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집→ World model인 diffusion model 업데이트→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트→ Actor-Critic model로써 πϕ, Vϕ 업데이트  ..
Your Transformer is Secretly Linear AbstractTransformer decoder layer 간의 높은 선형성을 식별하고 이를 활용할 수 있는 방법 제안 [arXiv](2024/05/19 version v1)   Analysis of Pretrained Architectures Linearity Score 선형성 점수는 정규화된 행렬 X̃, Ỹ가 있을 때, 선형 변환 A를 적용하여 차이의 최솟값을 구하고 그것을 1에서 뺀다. 레이어 입, 출력 임베딩 세트에 대해 선형성 점수를 계산한다.놀랍게도 거의 모든 transformer decoder의 선형성 점수가 1에 가까웠다. Residual stream을 빼면 선형성이 상당히 감소했다. Linearity Dynamics at Pretraining and Fine-tuning Pre-tr..
The Platonic Representation Hypothesis AbstractDeep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다. 연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다. [Project Page][Github][arXiv](2024/05/13 version v1)   Introduction최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다. The Platonic Representation Hypothesis:이미지 표현 X, 텍스트 표현 Y는 공통된 현실..
Is Flash Attention Stable? Abstract훈련 불안정의 잠재적인 원인인 수치 편차(Numeric Deviation)를 정량화하는 방법을 제안하고 flash attention을 분석제목 어그로인 것으로 밝혀져... [arXiv](2024/05/05 version v1)   BackgroundFlash-Attention 논문 리뷰:시퀀스를 일정한 tile로 나누고 online-softmax trick을 사용하여 전체 행렬을 메모리에 올리지 않는다.Online softmax를 수행하기 위한 재조정 인자가 필요하다.Flash attention 논문의 그림본문의 그림    Experimental MethodologyAttention 호출 시 기존 attention과 flash attention을 모두 계산하고 출력을 비교한다.각 모델을 독..
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior Abstract 사용자 프롬프트에 따라 텍스트에 움직임을 불어넣는 end-to-end 최적화 프레임워크 [Project Page] [Github] [arXiv](2024/04/18 version v2) Preliminary Vector Representation and Fonts FreeType 글꼴 라이브러리를 통해 문자의 윤곽선을 추출하고 특정 해상도에 얽매이지 않는 벡터 표현인 베지에 곡선으로 변환한다. Score Distillation Sampling [SDS 논문 리뷰] 사전 훈련된 text-to-video 모델의 지식을 추출하기 위해 사용한다. SDS는 벡터에 적용할 수 없으므로 미분 가능한 래스터라이저로 DiffVG를 사용한다. DiffVG는 미분 가능한 방식으로 벡터 표현을 픽셀 표현으로 ..
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU (Fuyou) [arXiv](2024/03/11 version v1) Abstract 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선한 Fuyou 제안 Background Memory Footprint Gradient는 역전파 단계에서 활성화와 오류 값에 대해 계산되며 최적화 단계에서 소비된다. 따라서 활성화는 역전파 단계에서 소비되며 parameter, optimizer state는 훈련 과정 전반에 걸쳐 유지된다. Activation Checkpointing 또한 메모리를 절약하기 위해 활성화를 heterogeneous storage에 offload 하고 역전파 시 가져올 수 있다. ZeRO (Zero Redundancy Optimizer) ZeRO, Z..
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [Project Page] [arXiv](2024/03/05 version v1) Abstract 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성하는 factorized diffusion TTS model인 NaturalSpeech 3 NaturalSpeech 3 Overall Architecture FACodec, factorized diffusion model로 구성됨. FACodec for Attribute Factorization FACodec은 인코더, 디코더, 음색 추출기, 3개의 factorized vector quantizer로 구성된다. Attribute Disentanglement Information Bottleneck: 인코더 출력을 저차원 공간에 투영하고 양자화..
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping (SearchFormer) [arXiv](2024/02/21 version v1) Abstract Transformer를 통해 maze, sokoban puzzle과 같은 복잡한 의사 결정 작업 해결 Problem Setup 문제: 미로 탐색과 sokoban puzzle 직접 해보기. 이거 생각보다 재밌음;; 시간 순삭 조심;; Generating execution traces of A∗ search A*(A-star로 읽음) 알고리즘을 통해 2가지 토큰 시퀀스를 생성할 수 있다. Search-augmented sequence: 형태로 execution trace, optimal plan을 포함한다. Solution-only sequence: 형태. Training a Transformer model T5, RoPE 인코더는 를 ..
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information [Github] [arXiv](2024/02/29 version v2) Abstract Programmable Gradient Information(PGI), Generalized ELAN(GELAN)을 통해 information bottleneck 현상을 완화하고 성능 향상 [YOLO v1 ~ v7 변천사] [YOLO v7] Problem Statement Information Bottleneck Principle 레이어가 깊을수록 원래 데이터가 더 많이 손상된다. 모델의 깊이 대신 너비를 확장하여 이를 완화할 수 있다. Reversible Functions 다음과 같은 가역 함수가 있다고 하자. 네트워크가 가역 함수로 구성되면 정보의 손실 없이 데이터를 변환하고 역전파할 수 있다. Methodolog..
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [Audio Sample] [arXiv](2024/02/15 version v2) 모델은 윤리적인 이유로 공개하지 않는다고 한다. Abstract 100K 시간의 음성 데이터에 대해 훈련된 현존하는 가장 큰 규모의 autoregressive TTS model인 BASE( Big Adaptive Streamable TTS with Emergent abilities) TTS 제안 Introduction BASE TTS는 이전 최고치의 두 배에 달하는 100K 시간의 공개 음성 데이터에 대해 훈련된 LTTS이다. LLM의 성공에서 영감을 받아 다음 토큰 예측을 사용한다. Speechcode라는 개별 음성 표현을 사용한다. BASE TTS Dataset D = {x, y}. x는 text이고 y는 그에 해당하는..