Awesome Text-to-Image Generation by QuenithAI

A curated collection of papers, models, and resources for the field of Text-to-Image Generation.

Note

This repository is proudly maintained by the frontline research mentors at QuenithAI (应达学术). It aims to provide the most comprehensive and cutting-edge map of papers and technologies in the field of Text-to-Image generation.

Your contributions are also vital—feel free to open an issue or submit a pull request to become a collaborator of this repository. We expect your participation!

If you require expert 1-on-1 guidance on your submissions to top-tier conferences and journals, we invite you to contact us via WeChat or E-mail.

本仓库由 「应达学术」(QuenithAI) 的一线科研导师团队倾力打造并持续维护，旨在为您呈现文生图领域最全面、最前沿的论文。

您的贡献对我们和社区来说至关重要——我们诚邀有志之士通过 open an issue 或 submit a pull request 来成为这个项目的合作者之一，期待您的加入！

如果您在冲刺科研顶会的道路上需要专业的1V1指导，欢迎通过微信或邮件联系我们。

⚡ Latest Updates

(Sep 21th, 2025): Add a new direction: 🔄 Unified Generation and Understanding.
(Aug 21th, 2025): Add a new direction: 🎨 Personalized Image Generation.
(Aug 20th, 2025): Initial commit and repository structure established.

📜 Papers & Models

✍️ Survey Papers

⇧ Back to ToC

🖼️ Text-to-Image Generation

✨ 2025

✅ Published Papers

[CVPR 2025] PreciseCam: Precise Camera Control for Text-to-Image Generation
[CVPR 2025] Type‑R: Automatically Retouching Typos for Text‑to‑Image Generation
[CVPR 2025] Compass Control: Multi Object Orientation Control for Text‑to‑Image Generation
[CVPR 2025] Generative Photography: Scene‑Consistent Camera Control for Realistic Text‑to‑Image Synthesis
[CVPR 2025] One‑Way Ticket: Time‑Independent Unified Encoder for Distilling Text‑to‑Image Diffusion Models
[CVPR 2025] Text Embedding is Not All You Need: Attention Control for Text‑to‑Image Semantic Alignment with Text Self‑Attention Maps
[CVPR 2025] Towards Uncertainty: Understanding and Quantifying Uncertainty for Text‑to‑Image Generation
[CVPR 2025] Responsible Diffusion: Plug‑and‑Play Interpretable Responsible Text‑to‑Image Generation via Dual‑Space Multi‑faceted Concept Control
[CVPR 2025] Make It Count: Text‑to‑Image Generation with an Accurate Number of Objects
[CVPR 2025] MCCD: Multi‑Agent Collaboration‑based Compositional Diffusion for Complex Text‑to‑Image Generation
[CVPR 2025] Debias‑SD: Rethinking Training for De‑biasing Text‑to‑Image Generation: Unlocking the Potential of Stable Diffusion
[CVPR 2025] ShapeWords: Guiding Text‑to‑Image Synthesis with 3D Shape‑Aware Prompts
[CVPR 2025] SnapGen: Taming High‑Resolution Text‑to‑Image Models for Mobile Devices with Efficient Architectures and Training
[CVPR 2025] STORM: Spatial Transport Optimization by Repositioning Attention Map for Training‑Free Text‑to‑Image Synthesis
[CVPR 2025] Focus‑N‑Fix: Region‑Aware Fine‑Tuning for Text‑to‑Image Generation
[CVPR 2025] SILMM: Self‑Improving Large Multimodal Models for Compositional Text‑to‑Image Generation
[CVPR 2025] GLoCE: Localized Concept Erasure for Text‑to‑Image Diffusion Models Using Training‑Free Gated Low‑Rank Adaptation
[CVPR 2025] Self‑Cross Guidance: Self‑Cross Diffusion Guidance for Text‑to‑Image Synthesis of Similar Subjects
[CVPR 2025] Noise Diffusion: Enhancing Semantic Faithfulness in Text‑to‑Image Synthesis
[CVPR 2025] PromptSampler: Learning to Sample Effective and Diverse Prompts for Text‑to‑Image Generation
[CVPR 2025] STEREO: A Two‑Stage Framework for Adversarially Robust Concept Erasing from Text‑to‑Image Diffusion Models
[CVPR 2025] MinorityPrompt: Minority‑Focused Text‑to‑Image Generation via Prompt Optimization
[CVPR 2025] DistillT5: Scaling Down Text Encoders of Text‑to‑Image Diffusion Models
[CVPR 2025] TIU: The Illusion of Unlearning: The Unstable Nature of Machine Unlearning in Text‑to‑Image Diffusion Models
[CVPR 2025] Fuse‑DiT: Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text‑to‑Image Synthesis
[CVPR 2025] Detect‑and‑Guide: Self‑regulation of Diffusion Models for Safe Text‑to‑Image Generation via Guideline Token Optimization
[CVPR 2025] Multi‑Group T2I: Multi‑Group Proportional Representations for Text‑to‑Image Models
[CVPR 2025] VODiff: Controlling Object Visibility Order in Text‑to‑Image Generation
[CVPR 2025] Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
[CVPR 2025] Six‑CD: Benchmarking Concept Removals for Text-to-image Diffusion Models
[CVPR 2025] ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation
[CVPR 2025] ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
[ICLR 2025] Improving Long‑Text Alignment: Improving Long‑Text Alignment for Text‑to‑Image Diffusion Models
[ICLR 2025] ITTA: Information Theoretic Text‑to‑Image Alignment
[ICLR 2025] Meissonic: Revitalizing Masked Generative Transformers for Efficient High‑Resolution Text‑to‑Image Synthesis
[ICLR 2025] PaRa: Personalizing Text‑to‑Image Diffusion via Parameter Rank Reduction
[ICLR 2025] Fluid: Scaling Autoregressive Text‑to‑image Generative Models with Continuous Tokens
[ICLR 2025] Prompt‑Pruning: Not All Prompts Are Made Equal – Prompt‑based Pruning of Text‑to‑Image Diffusion Models
[ICLR 2025] Denoising AR Transformers: Denoising Autoregressive Transformers for Scalable Text‑to‑Image Generation
[ICLR 2025] Progressive Compositionality: Progressive Compositionality in Text‑to‑Image Generative Models
[ICLR 2025] Classifier Scores: Mining your own secrets: Diffusion Classifier Scores for Continual Personalization of Text‑to‑Image Diffusion Models
[ICLR 2025] Engagement: Measuring and Improving Engagement of Text‑to‑Image Generation Models
[ICLR 2025] Residual Gate Eraser: Concept Pinpoint Eraser for Text‑to-image Diffusion Models via Residual Attention Gate
[ICLR 2025] Random Seeds: Enhancing Compositional Text‑to‑Image Generation with Reliable Random Seeds
[ICLR 2025] One‑Prompt‑One‑Story: Free‑Lunch Consistent Text‑to‑Image Generation Using a Single Prompt
[ICLR 2025] You Only Sample Once: Taming One‑Step Text‑to‑Image Synthesis by Self‑Cooperative Diffusion GANs
[ICLR 2025] Copyright Revisiting: Rethinking Artistic Copyright Infringements in the Era of Text‑to‑Image Generative Models
[ICLR 2025] Concept Combination Erasing: Erasing Concept Combination from Text‑to‑Image Diffusion Model
[ICLR 2025] Cross‑Attention Patterns: Cross‑Attention Head Position Patterns Can Align with Human Visual Concepts in Text‑to‑Image Generative Models
[ICLR 2025] TIGeR: Unifying Text‑to‑Image Generation and Retrieval with Large Multimodal Models
[ICLR 2025] DGQ: Distribution‑Aware Group Quantization for Text‑to‑Image Diffusion Models
[ICLR 2025] Jacobi Decoding: Accelerating Auto‑regressive Text‑to‑Image Generation with Training‑free Speculative Jacobi Decoding
[ICLR 2025] PT‑T2I/V: An Efficient Proxy‑Tokenized Diffusion Transformer for Text‑to‑Image/Video Task
[ICLR 2025] Gecko Evaluation: Revisiting Text‑to‑Image Evaluation with Gecko: on Metrics, Prompts, and Human Rating
[ICLR 2025] SANA: Efficient High‑Resolution Text‑to‑Image Synthesis with Linear Diffusion Transformers
[ICLR 2025] Rectified Flow: Text‑to‑Image Rectified Flow as Plug‑and‑Play Priors
[ICLR 2025] Human Feedback Filtering: Automated Filtering of Human Feedback Data for Aligning Text‑to‑Image Diffusion Models
[ICLR 2025] SAFREE: Training‑Free and Adaptive Guard for Safe Text‑to‑Image and Video Generation
[ICLR 2025] IterComp: Iterative Composition‑Aware Feedback Learning from Model Gallery for Text‑to‑Image Generation
[ICLR 2025] ScImage: How good are multimodal large language models at scientific text‑to‑image generation?
[ICLR 2025] Score Distillation: Guided Score Identity Distillation for Data‑Free One‑Step Text‑to‑Image Generation
[ICLR 2025] Causal Variation: Evaluating Semantic Variation in Text‑to‑Image Synthesis: A Causal Perspective

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

[CVPR 2024] DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models
[CVPR 2024] InstanceDiffusion: Instance-level Control for Image Generation
[CVPR 2024] ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations
[CVPR 2024] Instruct-Imagen: Image Generation with Multi-modal Instruction
[CVPR 2024] Continuous 3D Words: Learning Continuous 3D Words for Text-to-Image Generation
[CVPR 2024] HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances
[CVPR 2024] Rich Human Feedback: Rich Human Feedback for Text-to-Image Generation
[CVPR 2024] MarkovGen: Structured Prediction for Efficient Text-to-Image Generation
[CVPR 2024] Customization Assistant: Customization Assistant for Text-to-image Generation
[CVPR 2024] ADI: Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
[CVPR 2024] UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
[CVPR 2024] Interpret Diffusion: Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation
[CVPR 2024] Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting
[CVPR 2024] CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation
[CVPR 2024] Arbitrary‑Scale Diffusion: Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder
[CVPR 2024] Human-Centric Priors: Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation
[CVPR 2024] ElasticDiffusion: Training-free Arbitrary Size Image Generation
[CVPR 2024] CosmicMan: A Text-to-Image Foundation Model for Humans
[CVPR 2024] PanFusion: Taming Stable Diffusion for Text to 360° Panorama Image Generation
[CVPR 2024] Intelligent Grimm: Open-ended Visual Storytelling via Latent Diffusion Models
[CVPR 2024] Scalability: On the Scalability of Diffusion-based Text-to-Image Generation
[CVPR 2024] MuLAn: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation
[CVPR 2024] Multi-dimensional Preferences: Learning Multi-dimensional Human Preference for Text-to-Image Generation
[CVPR 2024] Dynamic Prompts: Dynamic Prompt Optimizing for Text-to-Image Generation
[CVPR 2024] Reinforcement Diversification: Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning
[CVPR 2024] HypercGAN: Adversarial Text to Continuous Image Generation
[CVPR 2024] EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models
[ECCV 2024] LaVi‑Bridge: Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation
[ECCV 2024] DiffPNG: Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model
[ECCV 2024] SPRIGHT: Getting it Right: Improving Spatial Consistency in Text-to-Image Models
[ECCV 2024] IndicTTI: Navigating Text-to-Image Generative Bias across Indic Languages
[ECCV 2024] Safeguard T2I: Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion
[ECCV 2024] Reality-and-Fantasy: The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation
[ECCV 2024] RECE: Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models
[ECCV 2024] StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models
[ECCV 2024] PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation
[ECCV 2024] Skewed Relations T2I: Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation
[ECCV 2024] Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
[ECCV 2024] MobileDiffusion: Instant Text-to-Image Generation on Mobile Devices
[ECCV 2024] PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
[ECCV 2024] CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
[ICLR 2024] Patched Diffusion Models: Patched Denoising Diffusion Models For High-Resolution Image Synthesis
[ICLR 2024] Relay Diffusion: Unifying diffusion process across resolutions for image synthesis
[ICLR 2024] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
[ICLR 2024] Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
[ICLR 2024] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
[SIGGRAPH 2024] RGB↔X: Image Decomposition and Synthesis Using Material- and Lighting-aware Diffusion Models
[AAAI 2024] Semantic-aware Augmentation: Semantic-aware Data Augmentation for Text-to-image Synthesis
[AAAI 2024] Abstract Concepts: Text-to-Image Generation for Abstract Concepts

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

[CVPR 2023] GigaGAN: Scaling Up GANs for Text-to-Image Synthesis
[CVPR 2023] ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model With Knowledge-Enhanced Mixture-of-Denoising-Experts
[CVPR 2023] Shifted Diffusion: Shifted Diffusion for Text-to-image Generation
[CVPR 2023] GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
[CVPR 2023] Specialist Diffusion: Plug-and-Play Sample-Efficient Fine-Tuning of Text-to-Image Diffusion Models to Learn Any Unseen Style
[CVPR 2023] Verifiable Evaluation: Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
[CVPR 2023] RIATIG: Reliable and Imperceptible Adversarial Text-to-Image Generation with Natural Prompts
[CVPR 2023] Custom Diffusion: Multi-Concept Customization of Text-to-Image Diffusion
[ICCV 2023] DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning
[NeurIPS 2023] ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
[NeurIPS 2023] RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
[NeurIPS 2023] Linguistic Binding: Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment
[NeurIPS 2023] DenseDiffusion: Dense Text-to-Image Generation with Attention Modulation
[ICLR 2023] Structured Diffusion Guidance: Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis
[ICML 2023] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
[ICML 2023] Muse: Text-To-Image Generation via Masked Generative Transformers
[ICML 2023] UniDiffusers: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
[ACM MM 2023] SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
[ACM MM 2023] ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors
[SIGGRAPH 2023] Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

💡 Pre-Print Papers

⇧ Back to ToC

🕹️ Conditional Image Generation

✨ 2025

✅ Published Papers

[AAAI 2025] Simple-ControlNet: Simplifying Control Mechanism in Text-to-Image Diffusion
[AAAI 2025] EMControl: Adding Conditional Control to Text-to-Image Diffusion Models via EM
[AAAI 2025] Local Conditional Controlling for Text-to-Image Diffusion Models
[AAAI 2025] VersaGen: Versatile Visual Control for Text-to-Image Diffusion
[AAAI 2025] Fair Text-to-Image Diffusion via Fair Mapping
[ICLR 2025] IFAdapter: Instance Feature Control for Grounded T2I
[ICLR 2025] LayerFusion / Harmonized Multi-Layer T2I (Foreground+Background)
[ICLR 2025] Enhancing Compositional T2I with Reliable Random Seeds

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

[CVPR 2024] PLACE: Adaptive Layout‑Semantic Fusion for Semantic Image Synthesis
[CVPR 2024] One‑Shot Structure‑Aware Stylized Image Synthesis: One‑Shot Structure‑Aware Stylized Image Synthesis
[CVPR 2024] Attention Refocusing: Grounded Text‑to‑Image Synthesis with Attention Refocusing
[CVPR 2024] CFLD: Coarse‑to‑Fine Latent Diffusion for Pose‑Guided Person Image Synthesis
[CVPR 2024] DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception
[CVPR 2024] CAN: Condition‑Aware Neural Network for Controlled Image Generation
[CVPR 2024] SceneDiffusion: Move Anything with Layered Scene Diffusion
[CVPR 2024] Zero‑Painter: Training‑Free Layout Control for Text‑to‑Image Synthesis
[CVPR 2024] MIGC: Multi‑Instance Generation Controller for Text‑to‑Image Synthesis
[CVPR 2024] FreeControl: Training‑Free Spatial Control of Any Text‑to‑Image Diffusion Model with Any Condition
[ECCV 2024] PreciseControl: Enhancing Text‑To‑Image Diffusion Models with Fine‑Grained Attribute Control
[ECCV 2024] AnyControl: Create Your Artwork with Versatile Control on Text‑to‑Image Generation
[NeurIPS 2024] Ctrl‑X: Controlling Structure and Appearance for Text‑To‑Image Generation Without Guidance
[ICLR 2024] PCDMs: Advancing Pose‑Guided Image Synthesis with Progressive Conditional Diffusion Models
[WACV 2024] Layout Control with Cross‑Attention Guidance: Training‑Free Layout Control with Cross‑Attention Guidance
[AAAI 2024] SSMG: Spatial‑Semantic Map Guided Diffusion Model for Free‑form Layout‑to‑image Generation
[AAAI 2024] Attention Map Control: Compositional Text‑to‑Image Synthesis with Attention Map Control of Diffusion Models

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

[CVPR 2023] GLIGEN: Open-Set Grounded Text-to-Image Generation
[CVPR 2022] Autoregressive Image Generation: Using Residual Quantization
[CVPR 2023] SpaText: Spatio-Textual Representation for Controllable Image Generation
[CVPR 2022] Text to Image Generation with Semantic-Spatial Aware GAN: Text to Image Generation with Semantic-Spatial Aware GAN
[CVPR 2023] ReCo: Region-Controlled Text-to-Image Generation
[CVPR 2023] LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation
[ICLR 2023] Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling
[ICCV 2023] ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models
[ICCV 2023] SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis
[ICCV 2023] ZestGuide: Zero-Shot Spatial Layout Conditioning for Text-to-Image Diffusion Models
[ICML 2023] Composer: Creative and Controllable Image Synthesis with Composable Conditions
[ICML 2023] MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
[SIGGRAPH 2023] Sketch-Guided Text-to-Image Diffusion Models: Sketch-Guided Text-to-Image Diffusion Models
[NeurIPS 2023] Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
[NeurIPS 2023] Prompt Diffusion: In-Context Learning Unlocked for Diffusion Models
[WACV 2023] More Control for Free!: Image Synthesis with Semantic Diffusion Guidance
[ACM MM 2023] LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

💡 Pre-Print Papers

⇧ Back to ToC

🎨 Personalized Image Generation

✨ 2025

✅ Published Papers

[CVPR 2025] SerialGen: Personalized Image Generation by First Standardization Then Personalization
[CVPR 2025] PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation
[CVPR 2025] DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
[NeurIPS 2025] MS-Diffusion: Multi-Subject Zero-shot Image Personalization with Layout Guidance
[NeurIPS 2025] ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance
[NeurIPS 2025] DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation
[NeurIPS 2025] TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

[CVPR 2024] Cross Initialization: Personalized Text‑to‑Image Generation
[CVPR 2024] When StyleGAN Meets Stable Diffusion: a W+ Adapter for Personalized Image Generation
[CVPR 2024] Style Aligned: Image Generation via Shared Attention
[CVPR 2024] InstantBooth: Personalized Text‑to‑Image Generation without Test‑Time Finetuning
[CVPR 2024] High Fidelity: Person‑centric Subject‑to‑Image Synthesis
[CVPR 2024] RealCustom: Narrowing Real Text Word for Real‑Time Open‑Domain Text‑to‑Image Customization
[CVPR 2024] DisenDiff: Attention Calibration for Disentangled Text‑to‑Image Personalization
[CVPR 2024] FreeCustom: Tuning‑Free Customized Image Generation for Multi‑Concept Composition
[CVPR 2024] Personalized Residuals: for Concept‑Driven Text‑to‑Image Generation
[CVPR 2024] Subject‑Agnostic Guidance: Improving Subject‑Driven Image Synthesis
[CVPR 2024] JeDi: Joint‑Image Diffusion Models for Finetuning‑Free Personalized Text‑to‑Image Generation
[CVPR 2024] Influence Watermarks: Countering Personalized Text‑to‑Image Generation
[CVPR 2024] PIA: Your Personalized Image Animator via Plug‑and‑Play Modules in Text‑to‑Image Models
[CVPR 2024] SSR‑Encoder: Encoding Selective Subject Representation for Subject‑Driven Generation
[ECCV 2024] Be Yourself: Bounded Attention for Multi‑Subject Text‑to‑Image Generation
[ECCV 2024] Powerful and Flexible: Personalized Text‑to‑Image Generation via Reinforcement Learning
[ECCV 2024] TIGC: Tuning‑Free Image Customization with Image and Text Guidance
[ECCV 2024] MasterWeaver: Taming Editability and Face Identity for Personalized Text‑to‑Image Generation
[NeurIPS 2024] RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance
[NeurIPS 2024] AttnDreamBooth: Towards Text‑Aligned Personalized Image Generation
[AAAI 2024] Decoupled Textual Embeddings: for Customized Image Generation

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

[CVPR 2023] Custom Diffusion: Multi-Concept Customization of Text-to-Image Diffusion
[CVPR 2023] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
[ICCV 2023] ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
[ICLR 2023] Textual Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
[SIGGRAPH Asia 2023] Break-A-Scene: Extracting Multiple Concepts from a Single Image
[SIGGRAPH 2023] Encoder‑Based Domain Tuning: Encoder‑Based Domain Tuning for Fast Personalization of Text‑to‑Image Models
[SIGGRAPH 2023] LayerDiffusion: Layered Controlled Image Editing with Diffusion Models

💡 Pre-Print Papers

⇧ Back to ToC

✂️ Image Editing

✨ 2025

✅ Published Papers

[CVPR 2025] FDS: Frequency‑Aware Denoising Score for Text‑Guided Latent Diffusion Image Editing
[CVPR 2025] Reference‑Based 3D‑Aware Image Editing with Triplanes
[CVPR 2025] MoEdit: On Learning Quantity Perception for Multi‑object Image Editing
[ICLR 2025] Lightning‑Fast Image Inversion and Editing for Text‑to‑Image Diffusion Models
[ICLR 2025] Multi‑Reward as Condition for Instruction‑based Image Editing
[ICLR 2025] HQ‑Edit: A High‑Quality Dataset for Instruction‑based Image Editing
[ICLR 2025] CLIPDrag: Combining Text‑based and Drag‑based Instructions for Image Editing
[ICLR 2025] Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
[ICLR 2025] PostEdit: Posterior Sampling for Efficient Zero‑Shot Image Editing
[ICLR 2025] OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

[CVPR 2024] InfEdit: Inversion‑Free Image Editing with Natural Language
[CVPR 2024] CrossSelfAttention: Towards Understanding Cross and Self‑Attention in Stable Diffusion for Text‑Guided Image Editing
[CVPR 2024] DAC: Doubly Abductive Counterfactual Inference for Text‑based Image Editing
[CVPR 2024] FoI: Focus on Your Instruction: Fine‑grained and Multi‑instruction Image Editing by Attention Modulation
[CVPR 2024] CDS: Contrastive Denoising Score for Text‑guided Latent Diffusion Image Editing
[CVPR 2024] DragDiffusion: Harnessing Diffusion Models for Interactive Point‑based Image Editing
[CVPR 2024] DiffEditor: Boosting Accuracy and Flexibility on Diffusion‑based Image Editing
[CVPR 2024] FreeDrag: Feature Dragging for Reliable Point‑based Image Editing
[CVPR 2024] Learnable Regions: Text‑Driven Image Editing via Learnable Regions
[CVPR 2024] LEDITS++: Limitless Image Editing using Text‑to‑Image Models
[CVPR 2024] SmartEdit: Exploring Complex Instruction‑based Image Editing with Large Language Models
[CVPR 2024] Edit One for All: Interactive Batch Image Editing
[CVPR 2024] DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
[CVPR 2024] TiNO‑Edit: Timestep and Noise Optimization for Robust Diffusion‑Based Image Editing
[CVPR 2024] Person in Place: Generating Associative Skeleton‑Guidance Maps for Human‑Object Interaction Image Editing
[CVPR 2024] Referring Image Editing: Object‑level Image Editing via Referring Expressions
[CVPR 2024] Prompt Augmentation: Prompt Augmentation for Self‑supervised Text‑guided Image Manipulation
[CVPR 2024] StyleFeatureEditor: The Devil is in the Details — StyleFeatureEditor for Detail‑Rich StyleGAN Inversion and High Quality Image Editing
[ECCV 2024] RegionDrag: Fast Region‑Based Image Editing with Diffusion Models
[ECCV 2024] TurboEdit: Instant Text‑Based Image Editing
[ECCV 2024] InstructGIE: Towards Generalizable Image Editing
[ECCV 2024] StableDrag: Stable Dragging for Point‑based Image Editing
[ECCV 2024] Eta Inversion: Designing an Optimal Eta Function for Diffusion‑based Real Image Editing
[ECCV 2024] SwapAnything: Enabling Arbitrary Object Swapping in Personalized Image Editing
[ECCV 2024] Guide‑and‑Rescale: Self‑Guidance Mechanism for Effective Tuning‑Free Real Image Editing
[ECCV 2024] FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models
[ECCV 2024] Lazy Diffusion Transformer: Lazy Diffusion Transformer for Interactive Image Editing
[ECCV 2024] ByteEdit: Boost, Comply and Accelerate Generative Image Editing
[ICLR 2024] MGIE: Guiding Instruction‑based Image Editing via Multimodal Large Language Models
[ICLR 2024] SDE‑Drag: The Blessing of Randomness — SDE Beats ODE in General Diffusion‑based Image Editing
[ICLR 2024] Motion Guidance: Diffusion‑Based Image Editing with Differentiable Motion Estimators
[ICLR 2024] OIR: Object‑Aware Inversion and Reassembly for Image Editing
[ICLR 2024] Noise Map Guidance: Inversion with Spatial Context for Real Image Editing
[AAAI 2024] TIC: Tuning‑Free Inversion‑Enhanced Control for Consistent Image Editing
[AAAI 2024] BARET: Balanced Attention based Real Image Editing driven by Target‑text Inversion
[AAAI 2024] CacheEdit: Accelerating Text‑to‑Image Editing via Cache‑Enabled Sparse Diffusion Inference
[AAAI 2024] High‑Fidelity Editing: High‑Fidelity Diffusion‑based Image Editing
[AAAI 2024] AdapEdit: Spatio‑Temporal Guided Adaptive Editing Algorithm for Text‑Based Continuity‑Sensitive Image Editing
[AAAI 2024] TexFit: Text‑Driven Fashion Image Editing with Diffusion Models

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

[CVPR 2023] Diffusion Disentanglement: Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models
[CVPR 2023] SINE: SINgle Image Editing with Text-to-Image Diffusion Models
[CVPR 2023] Imagic: Text-Based Real Image Editing with Diffusion Models
[CVPR 2023] InstructPix2Pix: Learning to Follow Image Editing Instructions
[CVPR 2023] Null-text Inversion: Null-text Inversion for Editing Real Images using Guided Diffusion Models
[ICCV 2023] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing
[ICCV 2023] Local Prompt Mixing: Localizing Object-level Shape Variations with Text-to-Image Diffusion Models
[ICLR 2022] SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

💡 Pre-Print Papers

⇧ Back to ToC

🔄 Unified Generation and Understanding

✨ 2025

✅ Published Papers

[CVPR 2025] OmniFlow: Any‑to‑Any Generation with Multi‑Modal Rectified Flows
[CVPR 2025] TokenFlow: Unified image tokenizer for multimodal understanding and generation
[CVPR 2025] UNIC‑Adapter: Unified Image‑instruction Adapter with Multi‑modal Transformer for Image Generation
[CVPR 2025] MergeVQ: A Unified Framework for Visual Generation and Representation with Token Merging and Quantization
[ICLR 2025] Show‑o: One Single Transformer to Unify Multimodal Understanding and Generation
[ICLR 2025] Transfusion: Predict the Next Token and Diffuse Images with One Multi‑Modal Model
[CVPRW 2025] UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

[CVPR 2024] TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
[CVPR 2024] Unified‑IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio and Action
[CVPR 2024] Emu2: Generative Multimodal Models are In‑Context Learners
[ICLR 2024] LWM: World Model on Million‑Length Video And Language With Blockwise RingAttention
[ICLR 2024] VILA‑U: a Unified Foundation Model Integrating Visual Understanding and Generation
[ICLR 2024] DreamLLM: Synergistic Multimodal Comprehension and Creation
[ICLR 2024] LaVIT: Unified Language‑Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
[ICLR 2024] Emu: Generative Pretraining in Multimodality
[ICLR 2024] SEED‑LLaMA: Making LLaMA SEE and Draw with SEED Tokenizer
[ICML 2024] Video‑LaVIT: Unified Video‑Language Pre‑training with Decoupled Visual‑Motional Tokenization

💡 Pre-Print Papers

🗂️ Datasets

Dataset Name	Year	Modalities	Task
Oxford-120 Flowers	2008	Text, Image	Text-to-Image Generation
CUB-200-2011	2011	Text, Image	Text-to-Image Generation
MS COCO	2014	Text, Image	Text-to-Image Generation
LAION-5B	2022	Text, Image	Text-to-Image Generation
DiffusionDB	2022	Text, Image	Text-to-Image Generation
T2I‑FactualBench	2024	Text, Image	Text-to-Image Generation
EvalMuse‑40K	2024	Text, Image, Rating	Text-to-Image Generation
T2I‑CompBench++	2025	Text	Text-to-Image Generation
Gecko Evaluation	2025	Text, Image	Text-to-Image Generation
T2I‑ReasonBench	2025	Text, Image	Text-to-Image Generation
ImageNet	2009	Image, Class Label	Class-Conditional Generation
CIFAR-10	2009	Image, Class Label	Class-Conditional Generation
LSUN	2015	Image, Class/Scene Label	Class-Conditional Generation
7Bench	2025	Text, Image, Bounding Box	Conditional Image Generation
EditInspector	2024	Text, Image, Human-Annotated Brush	Conditional Image Generation, Text-to-Image Generation
Cityscapes	2016	Image, Segmentation Map	Conditional Image Generation (Segmentation-based)
ADE20K	2017	Image, Segmentation Map	Conditional Image Generation (Segmentation-based)
COCO-Stuff	2017	Image, Segmentation Map	Conditional Image Generation (Segmentation-based)
EditVal	2023	Text, Image	Image Editing
MagicBrush	2023	Text, Image	Image Editing
ImgEdit	2025	Text, Image	Image Editing
Six‑CD	2025	Text, Image	Image Editing
LMM4Edit (EBench‑18K)	2025	Text, Question-Answer Pair, Image	Image Editing
InstructPix2Pix Dataset	2022	Text, Image	Image Editing (Instruction-Based)
HIVE	2024	Text, Image, Human Feedback	Image Editing (Instruction-Based)
HQ-Edit	2024	Text, Image	Image Editing (Instruction-Based)
AnyEdit	2025	Text, Image	Image Editing (Instruction-Based)
HQ‑Edit	2025	Text, Image	Image Editing (Instruction-Based)
OmniEdit	2025	Text, Image	Image Editing (Instruction-Based)
VectorEdits	2025	Text, SVG Image	Image Editing (Instruction-Based)
ComplexBench‑Edit	2025	Text (Multi-Step Instruction), Image	Image Editing (Instruction-Based)
GPT‑IMAGE‑EDIT‑1.5M	2025	Text, Image	Image Editing (Instruction-Based)
CustomConcept-101	2022	Text, Image	Personalized Image Generation (Multi-Subject)
DreamEditBench	2023	Text, Image	Personalized Image Generation
DreamBench++	2024	Text, Image	Personalized Image Generation

⇧ Back to ToC

🎓 About Us

QuenithAI is a professional organization composed of top researchers, dedicated to providing high-quality 1-on-1 research mentoring for university students worldwide. Our mission is to help students bridge the gap from theoretical knowledge to cutting-edge research and publish their work in top-tier conferences and journals.

Maintaining this Awesome Text-to-Image Generation list requires significant effort, just as completing a high-quality paper requires focused dedication and expert guidance. If you're looking for one-on-one support from top scholars on your own research project, to quickly identify innovative ideas and make publications, we invite you to contact us ASAP.

➡️ Contact us via WeChat or E-mail to start your research journey.

「应达学术」(QuenithAI) 是一家由顶尖研究者组成，致力于为全球高校学生提供高质量1V1科研辅导的专业机构。我们的使命是帮助学生培养出色卓越的科研技能，在顶级会议和期刊上发表自己的成果。

维护一个GitHub调研仓库需要巨大的精力，正如完成一篇高质量的论文一样，离不开专注的投入和专业的指导。如果您希望在自己的研究项目中，获得来自顶尖学者的一对一支持，我们诚邀您与我们取得联系。

➡️ 欢迎通过微信或邮件联系我们，开启您的科研之旅。

⇧ Back to ToC

🤝 Contributing

Contributions are welcome! Please see our Contribution Guidelines for details on how to add new papers, correct information, or improve the repository.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
assets		assets
CONTRIBUTING.md		CONTRIBUTING.md
CONTRIBUTING_CN.md		CONTRIBUTING_CN.md
README.md		README.md

QuenithAI/T2I-Generation-Paper-List

Folders and files

Latest commit

History

Repository files navigation

Awesome Text-to-Image Generation by QuenithAI

📚 Table of Contents

📜 Papers & Models

✍️ Survey Papers

🖼️ Text-to-Image Generation

✨ 2025

✅ Published Papers

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

💡 Pre-Print Papers

🕹️ Conditional Image Generation

✨ 2025

✅ Published Papers

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

💡 Pre-Print Papers

🎨 Personalized Image Generation

✨ 2025

✅ Published Papers

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

💡 Pre-Print Papers

✂️ Image Editing

✨ 2025

✅ Published Papers

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

💡 Pre-Print Papers

✨ 2023

✅ Published Papers

💡 Pre-Print Papers

🔄 Unified Generation and Understanding

✨ 2025

✅ Published Papers

💡 Pre-Print Papers

✨ 2024

✅ Published Papers

💡 Pre-Print Papers

🗂️ Datasets

🎓 About Us

🤝 Contributing

About

Resources

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages