Large Language Model (LLM)
SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링
DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함
TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델
Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)
Mixtral 8x7B : Mistral 7B + Mixture of experts
Eurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용
Phi-3 : 오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다
OpenELM : Layer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개
- Retrieve
WebGLM : 웹 검색 기반 질의응답 시스템 (BingAI 느낌)
RAFT : Test domain을 알고 있다면 모델이 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다
GNN-RAG : GNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용
- Bilingual (Mainly Chinese)
GLM-130B : 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다.
LLaMA Beyond English : 다른 언어로의 전이 학습에 대한 조사
DeepSeek-V2 : MoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B MoE 모델
- Coding LLM
WaveCoder : Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작
Multi-token prediction : Multi-token prediction training을 하면 single-head에서도 성능이 향상된다?
- Math
DeepSeekMath : DeepSeekMath corpus, Group Relative Policy Optimization (GRPO)
AlphaMath Almost Zero : Monte Carlo Tree Search를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선
Abacus Embeddings : 각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상
MCTSr : LLM과 MCTS를 혁신적으로 통합하여 수학적 추론 능력 향상
- Fine-Tuning (Reinforcement, Instruction)
RL with KL penalties is better viewed as Bayesian inference
OpenChat : C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함
Self-Rewarding Language Models : 언어 모델이 학습 중에 스스로 보상을 제공하여 자가 개선
SPIN : SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상
sDPO : Dataset을 분할하여 단계적으로 DPO 수행
TR-DPO : 학습 중에 참조 정책을 업데이트
AlphaLLM : Monte Carlo Tree Search를 통합하여 LLM self-improvement
Iterative RPO : CoT를 DPO에 사용하여 모델을 반복적으로 개선
RLHF Workflow : Online Iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표
SimPO : DPO보다 간단하면서도 더 효과적임
Step-DPO : 최적화 단위를 개별 답변에서 개별 추론 단계로 분해하여 긴 수학적 추론 능력 향상
- Function calling LLM
Octopus v2 : Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임
Octopus v3 : Octopus v2 + vision
Octopus v4 : Function token을 통해 다른 모델을 호출하여 추론
- Evaluator LLM
Prometheus : Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset으로 훈련된 모델
Prometheus 2 : 직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM
Text Embedding
Improving Text Embeddings with Large Language Models : LLM을 fine-tuning 하여 text embedding model 얻기
GRIT : Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련
Gecko : Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상
LLM2Vec : LLM을 text encoder로 변환하는 효율적이고 간단한 비지도 접근 방식
NV-Embed : Latent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델 개발
Agent
AutoGen : Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축
LARP : Open world role-playing을 위한 agent 설계
AIME : 의사, 환자 agent의 시뮬레이션을 통해 의료 진단에 최적화된 LLM
DiffusionGPT : LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성
Multi-modal Large Language Model (MLLM)
LLaMA-Adapter V2 : LLaMA-Adapter 개선 + Multi-Modal
LLaVA-1.5 : LLaVA에 대한 간단한 수정을 통해 성능 향상
MoE-LLaVA : Mixture-of-Experts + LLaVA
COMM : LLM에 입력되는 feature 자체에 대한 연구, 계층과 모델에 대한 통합 feature 사용
InternLM-XComposer : 자연스러운 Interleaved Text-Image Composition
InternLM-XComposer2 : Visual token에만 LoRA를 적용하는 Partial LoRA
MoAI : Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용
Mini-Gemini : 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상
Ferret : MLLM에서 자유 형식의 영역 입력을 처리할 수 있는 최초의 작업
Ferret-UI : 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있다
Ferret-v2 : Ferret의 업그레이드 버전
TextSquare : 대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상
Groma : Region encoding을 기반으로 region-level task에 능숙한 MLLM
InternVL-1.5 : 동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련
Idefics2 : VLM의 구성에 대한 광범위한 실험을 수행하고 결과를 기반으로 foundational VLM 개발
Chameleon : 사전 훈련 모델을 활용하지 않고 end-to-end 방식으로 처음부터 훈련된 multi-modal model
ConvLLaVA : M LLM의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상
Meteor : 근거 순회라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력 향상
OMG-LLaVA : 범용 분할 모델을 visual encoder로 사용하여 pixel-level 능력을 향상
- Efficient MLLM
TinyGPT-V : 매우 효율적인 MLLM
-Video
Video-LLaMA : 비디오를 이해하는 언어 모델
GPT4Video : 대화 흐름과 상황에 따라 자연스럽게 video caption 생성
VideoPoet : Multi-modal 입력을 처리하고 고품질 audio, video를 합성
LargeWorldModel : Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling
PLLaVA : Image pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사
ShareGPT4Video : 신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상
Efficiency
Cramming : 초저비용 환경에서 최대의 학습 효율 내기
LLaMA-Adapter : LLaMA를 효율적으로 fine-tuning 할 수 있는 경량 어댑터
MobileLLM : 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM
Rho-1 : Hard token을 무시하고 useful token만을 선택적으로 훈련하는 Selective Language Modeling 사용
MatMul-Free LM : LLM에서 값비싼 MatMul 작업을 완전히 제거
- Low-Rank Adaptation
LoRA : 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업
LoRA+ : LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련
DoRA : 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning
GaLore : Gradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행
ReFT, LoReFT : 가중치 대신 표현을 수정하는 Representation Fine-Tuning의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안
LoRA Learns Less and Forgets Less : Code&math에서 LoRA와 full-finetuning의 차이를 비교, 분석
MoRA : Non-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update 달성
- Attention
StreamingLLM : Attentoin sink를 이용해 context를 확장하면서 안정성 유지
LongLoRA : LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법
BlockBERT : Attention matrix에 희소 블록 구조를 도입하여 장거리 종속성 모델링
Memory Efficient Transformers : Self-attention의 메모리 복잡도 줄임
BPT : Block-wise attention에 FFN까지 결합
Ring Attention : Block-wise transformer의 병렬화 방식을 개선하여 무한에 가까운 context로 확장
ReBased : In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계
YOCO : Decoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성 향상
Cross-Layer Attention : 레이어 간 KV cache를 공유
- Sparse
Sparse Fine-tuning : 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning
SliceGPT : Weight matrix를 small matrix로 대체
- Quantization
Quantization Aware Training (QAT)
BitNet : 가중치를 1-bit로 양자화
BitNet b1.58 : Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능
Post Training Quantization (PTQ)
SmoothQuant : 채널별 스케일링을 통해 LLM 양자화
TEQ : SmoothQuant의 채널별 scaling vector를 학습 가능하게 함
BiLLM : 1-bit PTQ
- Parallel Decoding
ProphetNet : N-stream self-attention을 통해 미래 n-gram을 예측
Speculative Decoding : 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링
Medusa : 메두사 같은 병렬 헤드를 통한 빠른 생성
Speculative Streaming : Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding
Layer Skip : 레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩
MoE
Mixture-of-Experts : Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함
ST-MoE : MoE의 안정적인 훈련을 위한 Router z-loss 제안
OpenMoE : Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시
Branch-Train-MiX : LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합
Mixture-of-Depths : 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당
JetMoE-8B : SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능
X-MoE : MoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공
Multi-Head MoE : Input token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 성능 향상
SMEAR : 전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 함
Lory : Autoregression을 위해 설계된 완전히 미분 가능한 MoE 아키텍처
Context Extension
LongMem : Memory bank를 통해 무제한 길이 토큰을 처리할 수 있는 LLM framework
Randomized Positional Encodings : 훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용
LongRoPE : 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장
Infini-attention : 압축 메모리와 linear attention을 활용하여 제한된 메모리에서도 무한히 긴 context를 처리
Megalodon : 기존의 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링 가능
TransformerFAM : Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리
FILM : Long-context의 중간에 필요한 정보를 배치하고 훈련하여 long-context에서의 성능 향상
Non-Autoregressive
Mask-Predict : Masked token을 병렬로 디코딩하여 텍스트 생성
SMART : Mask-Predict의 반복 과정을 개선
SUNDAE : Unrolled denoising을 통해 non-AR 텍스트 생성
AR2Diff : Text Diffusion과 AR model 비교, 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법 조사
Reasoning Method
STaR : 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상
Quiet-STaR : LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 함
Self-Discover : 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견
More Agents Is All You Need : 간단한 sampling 및 voting을 통해 LLM의 성능 향상
CoT-decoding : 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출
Think-and-Execute : Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 추론
Jail-Breaking, Attacks
Jailbroken: How Does LLM Safety Training Fail? : Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! : 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다.
Weak-to-Strong JailBreaking : 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도
Instruction Hierarchy : LLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시
Daredevil-8B : 유해한 명령을 거부하는 단일 방향을 찾아 제거
Benchmark
PoLL : Panel of LLM evaluators를 구성하여 LLM의 품질을 평가
Etc.
CORGI : 인간의 학습 커리큘럼을 언어 모델에 적용
Contriever : Unsupervised dense retriever의 훈련 방법으로 대조 학습을 탐구
η-sampling : 텍스트 샘플링 시 분포의 entropy에 따라 달라지는 확률 임계값 이하의 단어를 truncation
Binoculars : 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지
DSIR : 원시 데이터셋에서 importance weight를 반영하여 적절한 데이터 부분집합 선택
Chronos : LLM architecture를 이용한 시계열 모델링 프레임워크
AutoCrawler : HTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? : 새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사
xLSTM : 최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장
Fishing for Magikarp : Tokenizer vocabulary 내에서 훈련되지 않은 토큰을 감지하는 방법 개발
Tree Diffusion : Syntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행
Goldfish Loss : 훈련 목표의 간단한 수정을 통해 기억 능력을 감소시켜 정보 누출 위험을 피함
'논문 리뷰 > 논문 분류' 카테고리의 다른 글
짧은 개념 모음 (1) | 2023.12.01 |
---|---|
GAN 논문 분류 (0) | 2023.01.11 |
Vision Transformer 논문 분류 (0) | 2023.01.11 |
Diffusion 논문 분류 (0) | 2022.09.14 |
기타 논문 분류 (0) | 2022.06.10 |
년도별 (0) | 2022.06.10 |