본문 바로가기

논문 리뷰/논문 분류

Language 논문 분류

Large Language Model (LLM)

SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링

DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함

TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델 

Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)

Mixtral 8x7B : Mistral 7B + Mixture of experts

Eurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용

Phi-3 : 오직 훈련 데이터만 변경함으로써 작은 3.8B 모델로 타 대형 모델에 필적하는 성능을 달성했다

OpenELM : Layer-wise scaling을 적용한 경량 언어 모델인 OpenELM의 모든 정보, 프레임워크를 투명하게 공개

- Retrieve

WebGLM : 웹 검색 기반 질의응답 시스템 (BingAI 느낌)

RAFT : Test domain을 알고 있다면 모델이 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다

GNN-RAG : GNN의 그래프 검색 능력과 LLM의 언어 이해 능력을 결합하여 Knowledge Graph QA task에 이용 

- Bilingual (Mainly Chinese)

GLM-130B : 대규모 이중언어 오픈소스 모델. 훈련 과정을 전부 공개하였다.

LLaMA Beyond English : 다른 언어로의 전이 학습에 대한 조사

DeepSeek-V2 : MoE를 통한 경제적인 훈련, KV 캐시 압축을 통한 효율적인 추론이 특징인 236B MoE 모델

- Coding LLM

WaveCoder : Generator-Discriminator Framework를 통해 일반화 능력을 크게 향상할 수 있는 instruction dataset 제작

Multi-token prediction : Multi-token prediction training을 하면 single-head에서도 성능이 향상된다?

- Math

DeepSeekMath : DeepSeekMath corpus, Group Relative Policy Optimization (GRPO)

AlphaMath Almost Zero : Monte Carlo Tree Search를 활용하여 인간 주석 데이터 없이 LLM의 수학 추론 프로세스 개선

Abacus Embeddings : 각 숫자의 자릿수를 인코딩하는 임베딩을 추가하여 산술 작업의 능력을 획기적으로 향상

MCTSr : LLM과 MCTS를 혁신적으로 통합하여 수학적 추론 능력 향상

- Fine-Tuning (Reinforcement, Instruction)

RL with KL penalties is better viewed as Bayesian inference

OpenChat : C-RLFT를 통해 SFT dataset으로도 online fine-tuning을 가능하게 함

Self-Rewarding Language Models : 언어 모델이 학습 중에 스스로 보상을 제공하여 자가 개선

SPIN : SFT data를 활용한 self-play mechanism을 통해 성능을 점진적으로 향상

sDPO : Dataset을 분할하여 단계적으로 DPO 수행

TR-DPO : 학습 중에 참조 정책을 업데이트

AlphaLLM : Monte Carlo Tree Search를 통합하여 LLM self-improvement

Iterative RPO : CoT를 DPO에 사용하여 모델을 반복적으로 개선

RLHF Workflow : Online Iterative RLHF에 대해 재현하기 쉽고 자세한 레시피를 제공하는 것이 목표

SimPO : DPO보다 간단하면서도 더 효과적임

Step-DPO : 최적화 단위를 개별 답변에서 개별 추론 단계로 분해하여 긴 수학적 추론 능력 향상

- Function calling LLM

Octopus v2 : Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임

Octopus v3 : Octopus v2 + vision

Octopus v4 : Function token을 통해 다른 모델을 호출하여 추론

- Evaluator LLM

Prometheus : Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset으로 훈련된 모델 

Prometheus 2 : 직접 평가 및 쌍별 순위 지정을 모두 수행할 수 있고 이전 버전보다 향상된 evaluator LM

 

 

Text Embedding

Improving Text Embeddings with Large Language Models : LLM을 fine-tuning 하여 text embedding model 얻기

GRIT : Instruction tuning을 통해 LLM이 embedding과 generative task를 구별하여 처리할 수 있도록 훈련

Gecko : Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상

LLM2Vec : LLM을 text encoder로 변환하는 효율적이고 간단한 비지도 접근 방식

NV-Embed : Latent attention layer, contrastive instruction-tuning을 통해 최첨단 성능의 텍스트 임베딩 모델 개발

 

Agent

AutoGen : Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축

LARP : Open world role-playing을 위한 agent 설계

AIME : 의사, 환자 agent의 시뮬레이션을 통해 의료 진단에 최적화된 LLM

DiffusionGPT : LLM agent system을 통해 prompt에 적합한 확산 모델을 동적으로 선택하여 이미지 생성

 

Multi-modal Large Language Model (MLLM)

LLaMA-Adapter V2 : LLaMA-Adapter 개선 + Multi-Modal

LLaVA-1.5 : LLaVA에 대한 간단한 수정을 통해 성능 향상

MoE-LLaVA : Mixture-of-Experts + LLaVA

COMM : LLM에 입력되는 feature 자체에 대한 연구, 계층과 모델에 대한 통합 feature 사용

InternLM-XComposer : 자연스러운 Interleaved Text-Image Composition

InternLM-XComposer2 : Visual token에만 LoRA를 적용하는 Partial LoRA

MoAI : Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용

Mini-Gemini : 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상

Ferret : MLLM에서 자유 형식의 영역 입력을 처리할 수 있는 최초의 작업

Ferret-UI : 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있다

Ferret-v2 : Ferret의 업그레이드 버전

TextSquare : 대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상

Groma : Region encoding을 기반으로 region-level task에 능숙한 MLLM

InternVL-1.5 : 동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련

Idefics2 : VLM의 구성에 대한 광범위한 실험을 수행하고 결과를 기반으로 foundational VLM 개발

Chameleon :  사전 훈련 모델을 활용하지 않고 end-to-end 방식으로 처음부터 훈련된 multi-modal model

ConvLLaVA : M LLM의 visual encoder를 ConvNeXt로 대체하여 계산을 줄이고 성능 향상

Meteor : 근거 순회라는 개념을 통해 LLM에 암시적으로 근거를 제공하여 이해 능력 향상

OMG-LLaVA : 범용 분할 모델을 visual encoder로 사용하여 pixel-level 능력을 향상

- Efficient MLLM

TinyGPT-V : 매우 효율적인 MLLM

-Video

Video-LLaMA : 비디오를 이해하는 언어 모델

GPT4Video : 대화 흐름과 상황에 따라 자연스럽게 video caption 생성

VideoPoet : Multi-modal 입력을 처리하고 고품질 audio, video를 합성

LargeWorldModel : Ring attention을 활용하여 1M 길이의 context에 대한 multi-modal modeling

PLLaVA : Image pretrained MLLM을 비디오에 간단하고 효과적으로 적용하기 위한 방법 조사

ShareGPT4Video : 신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상

 

Efficiency

Cramming : 초저비용 환경에서 최대의 학습 효율 내기

LLaMA-Adapter : LLaMA를 효율적으로 fine-tuning 할 수 있는 경량 어댑터

MobileLLM : 가중치 공유 등 여러 기술들을 활용하여 매우 효율적인 on-device LLM

Rho-1 : Hard token을 무시하고 useful token만을 선택적으로 훈련하는 Selective Language Modeling 사용

MatMul-Free LM : LLM에서 값비싼 MatMul 작업을 완전히 제거

- Low-Rank Adaptation

LoRA : 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업

LoRA+ : LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련

DoRA : 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning

GaLore : Gradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행

ReFT, LoReFT : 가중치 대신 표현을 수정하는 Representation Fine-Tuning의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안

LoRA Learns Less and Forgets Less : Code&math에서 LoRA와 full-finetuning의 차이를 비교, 분석

MoRA : Non-parameter 연산자를 통해 LoRA와 동일한 피라미터 수를 유지하면서도 high-rank update 달성

- Attention

StreamingLLM : Attentoin sink를 이용해 context를 확장하면서 안정성 유지

LongLoRA : LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법

BlockBERT : Attention matrix에 희소 블록 구조를 도입하여 장거리 종속성 모델링

Memory Efficient Transformers : Self-attention의 메모리 복잡도 줄임

BPT : Block-wise attention에 FFN까지 결합

Ring Attention : Block-wise transformer의 병렬화 방식을 개선하여 무한에 가까운 context로 확장

ReBased : In-Context Learning 능력을 증폭시키기 위한 Linear Transformer Kernel 설계

YOCO : Decoder를 KV 캐시를 생성하는 self-decoder, 생성된 캐시를 재사용하는 cross-decoder로 분리하여 효율성 향상

Cross-Layer Attention : 레이어 간 KV cache를 공유

- Sparse

Sparse Fine-tuning : 희소 모델을 증류 방식을 통해 더 높은 sparse level로 fine-tuning

SliceGPT : Weight matrix를 small matrix로 대체

- Quantization

Quantization Aware Training (QAT)

BitNet : 가중치를 1-bit로 양자화 

BitNet b1.58 : Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능

Post Training Quantization (PTQ)

SmoothQuant : 채널별 스케일링을 통해 LLM 양자화

TEQ : SmoothQuant의 채널별 scaling vector를 학습 가능하게 함 

BiLLM : 1-bit PTQ

- Parallel Decoding

ProphetNet : N-stream self-attention을 통해 미래 n-gram을 예측

Speculative Decoding : 여러 개의 토큰을 병렬로 계산하여 더 빠르게 샘플링

Medusa : 메두사 같은 병렬 헤드를 통한 빠른 생성

Speculative Streaming : Speculation & Verification 통합, Multi-stream attention을 통해 효율적인 speculative decoding

Layer Skip : 레이어를 조기 종료하고 병렬로 검증하여 보조 모델 없이 빠르게 디코딩

 

MoE

Mixture-of-Experts : Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함

ST-MoE : MoE의 안정적인 훈련을 위한 Router z-loss 제안

OpenMoE : Routing mechanism을 심층적으로 분석하고 OpenMoE를 open-source로 출시

Branch-Train-MiX : LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합

Mixture-of-Depths : 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당

JetMoE-8B : SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능

X-MoE : MoE의 표현 붕괴 문제를 완화하고 더 안정적인 라우팅을 제공

Multi-Head MoE : Input token을 sub-token으로 분해한 뒤 여러 expert에 할당하여 expert 활성률을 높이고 성능 향상

SMEAR : 전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 함

Lory : Autoregression을 위해 설계된 완전히 미분 가능한 MoE 아키텍처

 

Context Extension

LongMem : Memory bank를 통해 무제한 길이 토큰을 처리할 수 있는 LLM framework

Randomized Positional Encodings : 훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용

LongRoPE : 검색을 통해 최적의 RoPE 재조정 인자를 찾고 LLM context window를 2048k까지 확장

Infini-attention : 압축 메모리와 linear attention을 활용하여 제한된 메모리에서도 무한히 긴 context를 처리

Megalodon : 기존 Mega를 개선하여 무제한 context 길이로 효율적인 시퀀스 모델링 가능

TransformerFAM : Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리

FILM : Long-context의 중간에 필요한 정보를 배치하고 훈련하여 long-context에서의 성능 향상

 

Non-Autoregressive

Mask-Predict : Masked token을 병렬로 디코딩하여 텍스트 생성

SMART : Mask-Predict의 반복 과정을 개선

SUNDAE : Unrolled denoising을 통해 non-AR 텍스트 생성

AR2Diff : Text Diffusion과 AR model 비교, 사전 훈련된 AR 모델을 확산 모델로 변환하는 AR2Diff 방법 조사

 

Reasoning Method

STaR : 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상

Quiet-STaR : LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록

Self-Discover : 복잡한 추론 문제를 해결하기 위해 LLM이 작업 내재적 추론 구조를 스스로 발견

More Agents Is All You Need : 간단한 sampling 및 voting을 통해 LLM의 성능 향상

CoT-decoding : 단순히 decoding process를 변경함으로써 prompting 없이 CoT reasoning path를 도출

Think-and-Execute : Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 추론

 

Jail-Breaking, Attacks

Jailbroken: How Does LLM Safety Training Fail? : Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! : 10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다.

Weak-to-Strong JailBreaking : 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도

Instruction Hierarchy : LLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시

Daredevil-8B : 유해한 명령을 거부하는 단일 방향을 찾아 제거

 

Benchmark

PoLL : Panel of LLM evaluators를 구성하여 LLM의 품질을 평가

 

Etc.

CORGI : 인간의 학습 커리큘럼을 언어 모델에 적용

Contriever : Unsupervised dense retriever의 훈련 방법으로 대조 학습을 탐구

η-sampling : 텍스트 샘플링 시 분포의 entropy에 따라 달라지는 확률 임계값 이하의 단어를 truncation

Binoculars : 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지

DSIR : 원시 데이터셋에서 importance weight를 반영하여 적절한 데이터 부분집합 선택

Chronos : LLM architecture를 이용한 시계열 모델링 프레임워크

AutoCrawler : HTML의 계층적 구조와 LLM을 활용하여 확장성이 뛰어난 crawler

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? : 새로운 사실적 지식을 학습하는 것이 LLM에 미치는 영향을 조사 

xLSTM : 최신 LLM 기술을 활용하여 LSTM을 수십억 피라미터로 확장

Fishing for Magikarp : Tokenizer vocabulary 에서 훈련되지 않은 토큰을 감지하는 방법 개발

Tree Diffusion : Syntax tree에 순차적으로 추가된 noise를 반전시켜 역 그래픽 작업을 수행

Goldfish Loss : 훈련 목표의 간단한 수정을 통해 기억 능력을 감소시켜 정보 누출 위험을 피함

'논문 리뷰 > 논문 분류' 카테고리의 다른 글

짧은 개념 모음  (1) 2023.12.01
GAN 논문 분류  (0) 2023.01.11
Vision Transformer 논문 분류  (0) 2023.01.11
Diffusion 논문 분류  (0) 2022.09.14
기타 논문 분류  (0) 2022.06.10
년도별  (0) 2022.06.10