DALL-E 2

DALL-E 2是OpenAI于2022年发布的第二代文本到图像生成模型，以强大的语义理解能力和创意生成著称，开创了AI绘画的新时代。

预计阅读时间：45分钟·难度：入门·更新：2024年12月

DALL-E 2简介

DALL-E 2是OpenAI开发的文本到图像生成系统，于2022年4月发布。它能够根据自然语言描述生成高质量、创意丰富的图像，是AI绘画领域的里程碑式产品。

发展历程

2021年1月DALL-E 1发布，首次展示文本生成图像能力

2022年4月DALL-E 2发布，图像质量大幅提升

2022年7月开放Waitlist注册，开始小范围测试

2022年9月全面开放使用

2023年10月DALL-E 3发布，DALL-E 2继续服务

核心特点

🎨 创意表现力强

擅长生成超现实、创意独特的图像

🧠 语义理解能力

能理解复杂的语言描述和抽象概念

✏️ 图像编辑能力

首创Inpainting和Outpainting功能

🔐 安全合规

完善的内容过滤和版权保护机制

技术原理

DALL-E 2采用了两阶段的生成架构，结合了CLIP和扩散模型的优势。

架构设计

1. CLIP文本编码

将文本描述转换为语义向量，捕捉文本的视觉含义。

2. Prior模型

将文本语义向量转换为可能的图像语义向量。

3. Decoder扩散模型

根据图像语义向量生成最终的高分辨率图像。

技术特点

• CLIP引导：使用CLIP模型理解文本与图像的关联
• 扩散去噪：从噪声逐步生成清晰图像
• 两阶段生成：先预测图像语义再生成像素
• 超分辨率：从低分辨率逐步提升到1024×1024

核心功能

DALL-E 2提供四大核心功能，覆盖图像生成和编辑的主要需求。

文生图（Text to Image）

根据文字描述生成图像，是最核心的功能。

支持的分辨率

• 1024×1024（方形）
• 512×512（方形，较低质量）
• 256×256（方形，低质量）

生成数量

每次提示词生成多个选项，用户选择最佳结果

提示词示例

创意场景

An astronaut riding a horse on Mars, digital art

产品渲染

A minimalist coffee maker on a white marble counter, studio lighting

艺术风格

A serene Japanese garden in the style of Claude Monet, oil painting

Inpainting（图像内编辑）

选择图像的特定区域，用文字描述修改内容。

使用场景

• 替换物体：将猫换成狗，将车换成自行车
• 添加元素：在空白位置添加人物或物体
• 移除物体：选择要删除的区域，描述背景填充
• 修改属性：改变颜色、样式、大小等

💡 Inpainting技巧

• 选择区域时留出适当余量，让边缘自然过渡
• 提示词描述要具体，说明替换成什么
• 考虑周围环境，描述要符合整体氛围
• 多次迭代，逐步完善效果

Outpainting（图像外扩）

扩展图像边界，生成超出原始画框的内容。

Outpainting特点

• 可以无限扩展图像边界
• 自动保持风格一致性
• 支持任意方向扩展
• 可创建全景图、宽幅作品

Outpainting工作流

1. 选择要扩展的方向（上/下/左/右或四角）
2. 输入描述扩展内容应该是什么
3. 生成多个选项，选择最佳结果
4. 重复扩展直到满意

变体生成（Variations）

基于现有图像生成多个变体版本，保持相似的风格和内容。

变体生成用途

• 探索可能性：在喜欢的图像基础上生成更多选项
• 微调效果：保留构图，调整细节和风格
• A/B测试：为同一概念生成多个版本进行对比

使用方法

访问方式

网页界面

通过labs.openai.com使用图形界面

• 可视化操作
• 支持所有功能
• 实时预览

API接口

通过OpenAI API集成到应用

• 程序化调用
• 批量处理
• 自动化工作流

计费方式

分辨率	价格	适用场景
1024×1024	$0.02/张	高质量输出
512×512	$0.016/张	预览测试
256×256	$0.016/张	快速原型

API使用

Python示例

import openai

response = openai.Image.create(
    prompt="A serene mountain lake at sunset",
    n=1,
    size="1024x1024"
)
image_url = response['data'][0]['url']

使用技巧

提示词技巧

✅ 推荐做法

• 使用具体名词，避免抽象概念
• 明确指定风格（photorealistic, oil painting等）
• 描述光线和视角（dramatic lighting, bird's eye view）
• 控制提示词在100字符以内

❌ 避免

• 过于复杂的场景描述
• 负面描述（DALL-E会忽略"不要"）
• 需要精确文字的请求（DALL-E 2不支持）

💡 最佳实践

• 多次生成，选择最佳结果
• 使用变体功能微调喜欢的图像
• Inpainting适合小范围精确修改
• Outpainting逐步扩展，一次一个方向
• 记录成功的提示词模板供复用

限制与注意事项

内容政策限制

• 禁止生成暴力、成人内容
• 禁止生成公众人物肖像
• 禁止生成版权材料
• 禁止生成仇恨、歧视内容
• 人物生成有使用限制（需同意政策）

技术限制

• 最高分辨率1024×1024
• 不支持文字渲染（文字会变形）
• 复杂场景可能出现逻辑错误
• 手部生成仍有问题
• 长宽比固定为正方形

版权说明

⚖️ 版权与使用

• 生成的图像归用户所有，可商业使用
• 无需注明来源（但建议注明）
• 不能声称完全原创（AI辅助创作）
• 商业用途需遵守OpenAI使用政策

与其他工具对比

特性	DALL-E 2	Midjourney	Stable Diffusion
使用方式	网页/API	Discord	本地/云端
价格	按量付费	订阅制	免费/自建成本
艺术性	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
可控性	⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
Inpainting	✅	✅	✅
Outpainting	✅	❌	✅

💡 选择建议

DALL-E 2适合需要Inpainting/Outpainting功能和商业安全合规的场景。追求艺术效果推荐Midjourney，追求可控性推荐Stable Diffusion。

← Midjourney商业应用

DALL-E 3 →