序言
你是不是经常这样:
脑子里有个超棒的画面,但AI画出来的……完全不是那么回事?
看别人生成的图又美又细节,自己试的时候却总是奇奇怪怪?
听说要写“提示词”,但不知道该写什么、怎么写?
每次写提示词都像在碰运气,不知道到底哪些词真的管用?
如果你有这些困惑,那这篇文章就是为你写的。我不是来讲高深理论的,而是想跟你像朋友聊天一样,把“怎么跟AI说人话,让它画出你想要的图”这件事,彻底讲明白。
我们一起来弄懂:
为什么你的提示词没效果(不是AI笨,是我们没掌握方法)
高手写提示词的“隐藏结构”(其实就像点菜,有固定套路)
从“想要啥”到“怎么写出来”的完整流程(一步步照做就行)
各种场景下的实战案例(人物、场景、风格,直接抄作业)
遇到问题怎么调整(常见翻车现场拯救指南)
我将站在学习者的角度,根据自身经验和参考专业人员的作品,来总结分享一下,文章结尾有福利呦~。
文生图原理与提示词作用机制
1. 文生图模型的基本工作原理
现代文生图模型(如Stable Diffusion、DALL-E、Midjourney等)本质上是文本到图像的跨模态转换系统。它们通过海量图文对训练,学习文本描述与视觉特征之间的关联模式。当您输入提示词时,模型会:
1. 文本编码: 将自然语言转换为高维语义向量。 2. 潜空间映射: 在训练所得的语义-视觉联合空间中定位对应概念。 3. 迭代生成: 通过多步去噪过程,将语义向量逐步转化为像素空间图像。
2. 提示词为何如此关键?
提示词是您与模型的唯一沟通桥梁。模型没有真实世界的经验,它只认识训练数据中出现过的模式组合。因此,提示词的质量直接决定了:
1. 概念准确性:模型能否正确理解您的核心意图。 2. 细节丰富度:图像是否包含您期望的视觉元素。 3. 风格一致性:整体美学是否符合预期。 4. 可控程度:您能否精确调整特定元素。
一个常见误区是认为“描述越详细越好”,实际上结构化、有重点的提示词远比冗长的描述更有效。
提示词基础语法与结构
1. 核心结构:三段式“三明治”模型
专业提示词通常遵循以下结构:[主体描述] + [环境与细节] + [风格与技术参数]
1.1 主体描述层(核心焦点)
必须包含:主要对象、人物特征、关键动作
示例对比:“一个女孩在森林里”❌
“一位20岁的北欧女性,赤褐色长发编成鱼尾辫,身着羊毛披肩,正在采蘑菇”✅
1.2 环境与细节层(上下文丰富)
空间信息:室内/室外、具体地点、时间、季节、天气。构图要素:视角、镜头类型、景深、灯光。氛围元素:情绪、动态、互动关系。
示例进阶:
“生成一张森林背景”❌
“生成一张古老的红杉林,晨雾缭绕,阳光透过树冠形成丁达尔效应,地面铺满苔藓和落叶的背景”✅
2. 语法规则详解
2.1 关键词优先级:加权与括号
基本加权:(keyword:1.2) 表示该词权重提高20%。多层嵌套:(masterpiece) 比 (masterpiece) 更强。减权处理:[noise:0.8] 降低噪声相关特征。最佳实践:主体元素权重1.1-1.3,次要元素0.8-0.9。
2.2 分隔符使用规范
逗号分隔:cinematic lighting, dramatic shadows,管道符可选:某些模型支持 | 表示“或”关系避免使用:句号、分号、感叹号(可能被误解)
2.3 否定提示词(Negative Prompt)
专门告诉模型不要什么:low quality, blurry, distorted faces, extra fingers, bad anatomy, watermark (低质量,模糊,扭曲的脸,多余的手指,糟糕的解剖结构,水印)否定词应具体,避免泛泛的只有“ugly(丑的)”
视觉概念的专业化表达
1. 人物与生物描述体系
1.1 面部特征矩阵举例
1.2 姿态与动作库
2. 空间与场景构建
2.1 视角术语表
2.2 光线与渲染词典
3. 材质与质感表达
表面纹理:anodized aluminum, weathered wood, crinkled paper(阳极氧化铝、风化木材、皱纸)
透明度:translucent marble, opalescent, frosted glass(半透明大理石,乳白色,磨砂玻璃)
反射属性:semi-gloss finish, matte ceramic, high-polished(半光泽饰面、哑光陶瓷、高抛光)
风格化语言的系统构建
1. 艺术史风格参照系
2. 现代数字艺术风格
3. 混合风格创新
结构:主体的风格1与风格2融合,具有特征
“一座未来主义城堡的蒸汽朋克与新艺术运动融合,具有曲线铁艺和齿轮装置”✅
“肖像画的荷兰黄金时代灯光与胶片摄影颗粒感结合”✅
高级控图技术与参数优化
1. 组合提示词策略
1.1 多概念融合语法
使用 AND(和) 或 + 连接独立概念:a cat AND a dog wearing medieval armor, intricate detail (一只猫和一只狗穿着中世纪的盔甲,细节复杂)某些模型支持注意力分离:[cow:horse:0.5] # 50%牛,50%马的特征
1.2 分阶段提示
对于复杂场景,分步骤描述:
1. A futuristic cityscape with flying cars (有飞行汽车的未来城市景观) 2. In the foreground, a detective in trench coat(前景是一个穿着风衣的侦探) 3. Rain-slicked streets reflecting neon signs(雨后光滑的街道反射着霓虹灯招牌)
2. 种子控制与迭代优化
2.1 种子数(Seed)的作用
固定种子可保证构图一致,微调提示词观察变化
2.2 渐进式细化工作流
初代生成:看相关教程,先宽泛提示,获取大致构图。种子锁定:选择有潜力的种子固定。增量调整:添加细节词,逐步细化,需要有耐心~局部重绘:仅修改不满意区域即可。
3. 参数调节
3.1 CFG Scale(提示词相关性)
范围:通常7-12低值(3-7):创意性更强,模型自由度大高值(10-15):严格遵循提示,可能降低自然度
3.2 采样步数(Steps)
平衡点:20-30步通常足够过少:细节不足过多:收益递减,可能过度平滑
行业特定提示词构建
1. 产品设计与可视化
[产品类型], [材质描述], [表面/环境], [灯光设置], [视角], [棚内摄影], [渲染], [背景], [精度], 8k
案例:
运动鞋,白色皮革,半透明底,大理石表面,柔和的工作室灯光低角度拍摄,专业产品摄影,极简构图,地面阴影,8k

2. 角色概念设计
[角色身份] + [核心特质][标志性外观] + [装扮细节],[经典姿态] + [动态瞬间],[标志性场景] + [整体氛围/风格],[镜头角度]+[光影效果]
案例:
仙界神女,身着飘逸的渐变水墨色齐胸襦裙,披帛缭绕,衣袂飘飘,
发簪为白玉兰花形状,手持一盏绘有山河图的引魂宫灯,腰间系有环形玉珏。
御风而立,回首凝望,裙摆与长发随风舞动,云海之上的孤峰悬亭,远处有仙鹤与飞檐隐现,水墨画
3. 建筑与室内设计
[空间功能] + [理念/风格][硬装与布局] + [标志性家具与陈列],[活动场景] + [动态细节],[环境与氛围] + [设计流派],[观察视角]+[光影设计]
案例:
这是一个艺术家的工作室,或者说,是一个收藏家放纵思绪的客厅。它奉行一种反设计的创意大爆炸哲学,追求一种经过精心编排的有序混乱。空间里,裸露的红砖墙与大片剥落的油漆、粗糙的水泥地面与温润的拼接木地板毫无过渡地碰撞在一起。标志性的家具是一组堆叠起来的复古行李箱,充当着边桌的角色,旁边是一只被各色涂鸦面料覆盖的懒人沙发。而墙壁,则被密密麻麻的画作、海报、昆虫标本和古怪挂件完全占领,没有留下一丝空白。此刻正是深夜灵感迸发的创作现场。颜料不仅留在调色板上,更溅洒在摊开的旧书页边;刚完成的速写稿从画板上滑落,随风在地板上轻轻移动;一只空咖啡杯被随手放在一个倒扣的陶土花盆底上,仿佛那本就是一个现成的杯垫。整个空间弥漫着一种迷幻而拥挤的氛围,每一件物品都仿佛在低声诉说自己的故事,能量与生机在混乱中恣意生长。这是极致折衷主义与蒸汽波美学的奇妙混合体。从一个采用鱼眼镜头夸张透视的角落看过去,空间的扭曲感被进一步放大。霓虹灯牌与模拟故障艺术的LED灯管散发出冷冷的、变幻的辉光,与一旁老旧台灯投下的温暖桔光相互交织,共同在层层叠叠的杂物上勾勒出迷离而富有戏剧性的阴影。

© 版权声明
文章版权归作者所有,未经允许请勿转载。




这结构讲得挺明白的,之前自己瞎试老是画歪。
权重控制那块儿还得再琢磨琢磨,感觉调不好就怪怪的。
有人试过那个分阶段描述的方法吗?管不管用?
示例里的未来城市描述绝了,照着写了一个效果还行。
那个负面提示词列表可以直接抄作业了,省事儿。