본문 바로가기

논문 리뷰/etc.

(62)
Mixtures of Experts Unlock Parameter Scaling for Deep RL [arXiv](2024/02/13 version v1) Abstract 강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상 Preliminaries Mixture of Experts (MoE) SoftMoE 강화 학습 대체 뭐냐? Mixture of Experts for Deep RL Where to place the MoEs? 두 번째 FFN layer. What is a token? 실험 결과 PerConv 방식이 가장 성능이 좋았다고 함. 또한 전문가 출력에서 입력 크기를 유지하기 위해 linear projection 추가. What flavour of MoE to use? Top1-MoE, SoftMoE Empirical evaluation 다양하고 도전적인 픽셀 기반 환경 모음인 Arcad..
YOLO-World: Real-Time Open-Vocabulary Object Detection [Project Page] [Github] [arXiv](2024/02/02 version v2) Abstract 빠르고 정확하게 open-vocabulary detection이 가능한 YOLO 기반 모델인 YOLO-World 제안 [YOLO v1 ~ v7 총정리] [YOLO v8] Method Model Architecture Re-parameterizable Vision-Language PAN Pre-training Schemes Pre-training Formulation: Region-Text Pairs 전통적인 object detection에서는 instance annotation {box B, class c}를 통해 훈련된다. 본문의 annotation은 {B, text t}이며, YOLO-W..
TOOD: Task-aligned One-stage Object Detection [Project Page] [Github] [arXiv](2021/08/28 version v3) Abstract One-stage object detection에서 classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head와 학습 방법인 Task Alignment Learning 제안 Task-aligned One-stage Object Detection TOOD는 1-stage dectection에 보편적인 backbone-FPN-head의 구조를 가진다. Task-aligned Head Task Alignment Learning Task-aligned Head T-Head는 2개의 Task-aligned predictor가 있는 간단한 feature ex..
Zero Bubble Pipeline Parallelism [Github] [arXiv](2023/11/30 version v1) Abstract 역전파 분할, 자동 스케줄링, 동기화 우회를 통해 zero bubble 달성 Introduction Data parallelism, Tensor parallelism, Pipeline parallelism Data parallelism : 각 장치에서 각자의 데이터를 처리 Tensor parallelism : 한 레이어의 행렬 연산을 여러 장치로 나누어서 처리 Pipeline parallelism : 모델의 end-to-end를 일정한 stage로 나누고 하나의 stage를 하나의 장치가 처리 Pipeline parallelism(이하 PP)은 bubble이 적을수록 효율적이다. Pipeline bubble에 대한 연..
Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution (LP-FT) [arXiv](2022/02/21 version v1) Abstract Linear Probing then full Fine-Tuning (LP-FT) 전략 소개 Introduction 사전 훈련된 feature extractor(맨 왼쪽)가 주어지면, 이를 작업에 활용하기 위해 head를 추가하여 전체 모델을 fine-tuning 하거나, head만 훈련하는 linear probing을 수행할 수 있다. Fine-tuning 시 ID(In-Distribution) 정확도는 높지만, OOD(Out-Of-Distribution) 정확도는 오히려 linear probing 보다 떨어진다. Theory: fine-tuning distorts pretrained features w*는 이상적인 모델의 분포를 의..
Compositional Visual Generation and Inference with Energy Based Models [Project Page] [Github] [arXiv](Current version v3) Abstract 에너지 기반 모델이 확률 분포를 직접 결합함으로써 개념의 결합, 분리, 부정을 동시에 만족하는 자연스러운 이미지를 생성할 수 있음을 보여준다. Method Energy-Based Models Langevin dynamics를 사용한 EBM 샘플링: Composition of Energy-Based Models 다음 그림은 CelebA face dataset에서 각 개념에 대해 독립적으로 훈련된 EBMs set의 조합을 보여준다. Concept Conjunction Product of Experts 다음과 같이 샘플링한다. Concept Disjunction 각 개념에 대한 or 분포는 likeli..
Implicit Generation and Modeling with Energy-Based Models [Github] [arXiv](Current version v6) Abstract Energy based models (EBMs)는 일반성과 단순성으로 인해 매력적이지만 훈련하기가 어려웠다. 본 논문에서는 MCMC based EBM training을 확장하는 기법을 소개한다. Energy-Based Models and Sampling 데이터 포인트 x, 에너지 함수 E(x)는 볼츠만 분포를 통해 확률 분포를 정의한다. 하지만 해당 분포에서는 샘플링이 어려워 MCMC 방법에 의존했다. 샘플링 절차의 혼합 시간을 개선하기 위해 에너지 함수의 gradient를 이용해 샘플링을 수행하는 Langevin dynamics를 사용한다. Maximum Likelihood Training E로 정의된 분포가 데이터 분포..
Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision Clustering 기반 표현 학습으로 audio embedding network 훈련 [arXiv](Current version v1) Introduction Labeling 된 대규모 예제 세트 대신 인간 유아와 비슷한 방법으로 지식을 습득하는 학습 framework. 의미론적으로 구조화된 표현에서 범주형 구조를 발견하기 위해 clustering 절차 제안. Cluster-based active learning procedure를 채택하여 발견된 범주에 약한 label 지정. The Learning Framework 목표는 audio embedding network를 훈련하는 것이다. Generalized Coincidence Prediction 본 논문의 접근 방식은 Look, Listen and ..
Look, Listen and Learn [Github] [arXiv](Current version v2) Abstract 수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가? 원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기 Introduction 이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼. Audio-visual correspondence learning 다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다. 이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상..
Sketch Video Synthesis [Project Page] [Github] [arXiv](Current version v1) Abstract 비디오에서 애니메이션 scalable vector graphics(SVG) 생성 Introduction Neural Layered Atlas(NLA)와 미분 가능한 rasterizer 사용. SVG 형식의 스케치 비디오 생성을 위해 새로운 control point 초기화 방법과 temporal consistency loss 제안. Methods Preliminary: Video Decomposition via Layer Atlas Neural Layered Atlas Differentiable Optimization for Video Sketch T frame의 실제 비디오 IT, N개의 stro..
Layered Neural Atlases for Consistent Video Editing 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑 [Project Page] [Github] [arXiv](Current version v1) +참고: https://github.com/thiagoambiel/NeuralAtlases 훈련된 모델을 여러 비디오에 적용할 수 있는 것이 아니라, 프로젝트마다 새로운 모델을 훈련해야 한다. 모델을 훈련하면 원하는 프레임 지점에서 배경 atlas와 전경 atlas를 생성할 수 있고, 해당 atlas를 편집하여 적용할 수 있다. 더보기 폐색이나 왜곡이 많은 물체의 경우 multi-atlas를 사용하여 개선할 수 있다. 위 그림은 폐색이 많은 반대쪽 다리를 다른 atlas로 렌더링한 결과이다. 또한 애니메이션 atlas를 이용하여 모든 프레임에 다른 편..
CLIPasso: Semantically-Aware Object Sketching 다양한 추상회 정도의 스케치 생성 [Project Page] [Github] [arXiv](Current version v2) Abstract 다양한 수준의 추상화를 달성할 수 있는 객체 스케치 방법인 CLIPasso 제안 Introduction 스타일에 관계없이 시각적 의미를 인코딩하는 데 탁월한 CLIP 사용. 이전의 연구들에서는 스케치 데이터셋을 사용하는 경우가 많지만 출력 스타일을 제한하기 때문에 비채택. 대신 CLIP 이미지 인코더를 사용하여 사진을 추상 스케치로 변환한다. 스케치는 흰 배경에 배치된 검은 획(베지어 곡선) 세트로 정의되며 추상화 수준은 획 수에 따라 결정된다. 그려질 대상 이미지가 주어지면 획의 매개변수(제어점 위치)를 직접 최적화한다. Method 스케치를 4개의 제어점이 있..