文章目录[隐藏]
你是不是经常这样: 脑子里有个超棒的画面,但AI画出来的……完全不是那么回事? 看别人生成的图又美又细节,自己试的时候却总是奇奇怪怪? 听说要写“提示词”,但不知道该写什么、怎么写? 每次写提示词都像在碰运气,不知道到底哪些词真的管用? 如果你有这些困惑,那这篇文章就是为你写的。我不是来讲高深理论的,而是想跟你像朋友聊天一样,把“怎么跟AI说人话,让它画出你想要的图”这件事,彻底讲明白。 我们一起来弄懂: 为什么你的提示词没效果(不是AI笨,是我们没掌握方法) 高手写提示词的“隐藏结构”(其实就像点菜,有固定套路) 从“想要啥”到“怎么写出来”的完整流程(一步步照做就行) 各种场景下的实战案例(人物、场景、风格,直接抄作业) 遇到问题怎么调整(常见翻车现场拯救指南) 我将站在学习者的角度,根据自身经验和参考专业人员的作品,来总结分享一下,文章结尾有福利呦~。 现代文生图模型(如Stable Diffusion、DALL-E、Midjourney等)本质上是文本到图像的跨模态转换系统。它们通过海量图文对训练,学习文本描述与视觉特征之间的关联模式。当您输入提示词时,模型会: 提示词是您与模型的唯一沟通桥梁。模型没有真实世界的经验,它只认识训练数据中出现过的模式组合。因此,提示词的质量直接决定了: 一个常见误区是认为“描述越详细越好”,实际上结构化、有重点的提示词远比冗长的描述更有效。 专业提示词通常遵循以下结构: 必须包含:主要对象、人物特征、关键动作 示例对比: “一位20岁的北欧女性,赤褐色长发编成鱼尾辫,身着羊毛披肩,正在采蘑菇”✅ 空间信息:室内/室外、具体地点、时间、季节、天气。 示例进阶: “生成一张森林背景”❌ “生成一张古老的红杉林,晨雾缭绕,阳光透过树冠形成丁达尔效应,地面铺满苔藓和落叶的背景”✅ 基本加权:(keyword:1.2) 表示该词权重提高20%。 逗号分隔:cinematic lighting, dramatic shadows, 专门告诉模型不要什么: 表面纹理:anodized aluminum, weathered wood, crinkled paper(阳极氧化铝、风化木材、皱纸) 透明度:translucent marble, opalescent, frosted glass(半透明大理石,乳白色,磨砂玻璃) 反射属性:semi-gloss finish, matte ceramic, high-polished(半光泽饰面、哑光陶瓷、高抛光) 结构:主体的风格1与风格2融合,具有特征 “一座未来主义城堡的蒸汽朋克与新艺术运动融合,具有曲线铁艺和齿轮装置”✅ “肖像画的荷兰黄金时代灯光与胶片摄影颗粒感结合”✅ 使用 AND(和) 或 + 连接独立概念: 对于复杂场景,分步骤描述: 固定种子可保证构图一致,微调提示词观察变化 初代生成:看相关教程,先宽泛提示,获取大致构图。 范围:通常7-12 平衡点:20-30步通常足够 案例: 运动鞋,白色皮革,半透明底, 案例: 仙界神女,身着飘逸的渐变水墨色齐胸襦裙,披帛缭绕,衣袂飘飘, 发簪为白玉兰花形状,手持一盏绘有山河图的引魂宫灯,腰间系有环形玉珏。 御风而立,回首凝望,裙摆与长发随风舞动, 云海之上的孤峰悬亭,远处有仙鹤与飞檐隐现,水墨画 案例: 这是一个艺术家的工作室,或者说,是一个收藏家放纵思绪的客厅。它奉行一种反设计的创意大爆炸哲学,追求一种经过精心编排的有序混乱。空间里,裸露的红砖墙与大片剥落的油漆、粗糙的水泥地面与温润的拼接木地板毫无过渡地碰撞在一起。标志性的家具是一组堆叠起来的复古行李箱,充当着边桌的角色,旁边是一只被各色涂鸦面料覆盖的懒人沙发。而墙壁,则被密密麻麻的画作、海报、昆虫标本和古怪挂件完全占领,没有留下一丝空白。 此刻正是深夜灵感迸发的创作现场。颜料不仅留在调色板上,更溅洒在摊开的旧书页边;刚完成的速写稿从画板上滑落,随风在地板上轻轻移动;一只空咖啡杯被随手放在一个倒扣的陶土花盆底上,仿佛那本就是一个现成的杯垫。整个空间弥漫着一种迷幻而拥挤的氛围,每一件物品都仿佛在低声诉说自己的故事,能量与生机在混乱中恣意生长。这是极致折衷主义与蒸汽波美学的奇妙混合体。 从一个采用鱼眼镜头夸张透视的角落看过去,空间的扭曲感被进一步放大。霓虹灯牌与模拟故障艺术的LED灯管散发出冷冷的、变幻的辉光,与一旁老旧台灯投下的温暖桔光相互交织,共同在层层叠叠的杂物上勾勒出迷离而富有戏剧性的阴影。 当提示词包含矛盾概念时,模型可能: 平均化:混合特征 解决办法: 说了那么多概念,接下来可以实操一下了~ 用户想法:“我想要一个未来感的城市” 思维过程分解: 最终提示: 任务:将古典肖像转换为不同风格 基础提示: 基础图 转换数字艺术: ...digital painting, bold outlines, limited color palette, trending on ArtStation (数字绘画、鲜明的轮廓、有限的色彩搭配) 转换科幻风格: ...cybernetic implants, holographic elements, neon accents, sci-fi concept art (网络化植入物、全息元素、霓虹装饰、科幻概念艺术图) 转换水墨风格: ...Chinese ink wash painting, flowing brushstrokes, monochromatic with single color accent (中国水墨画,流畅的笔触,单色画面,带有单一色彩的点缀。) 更换风格后的图 构建步骤: 接近性原则:group of trees clustered together(一丛丛树木紧密地聚集在一起) 红色:passionate crimson, dangerous scarlet (热情的深红色,危险的猩红色) 通过暗示故事引导模型生成更有深度的图像: 这样孤独的感觉是不是一下就出来了~ 未来系统可能支持(现在某些系统已部分支持): 风格微调:训练自己的LoRA模型 原创性提示:避免直接复制艺术家组合 掌握文生图提示词的本质是学习一种新的视觉语言。这种语言在具体与开放间找到平衡,在特定框架内发挥想象力,理解原理但不被技术束缚。每个人都能根据自己的想法去进行创作,而结果从一定程度上没有好坏之分。 根据我自己的学习过程,提几个小小的建议: 记住,最强大的提示词工具不是某个特定的关键词,而是您训练有素的视觉思维和系统性表达能力。随着模型进化,这种能力将越来越珍贵——因为机器可以学习模式,但人类的创意视角和审美判断永远是无可替代的核心。 创作没有标准答案,只有无限可能,享受其中吧! Transforming the photographed person into a realistic 3D figurine in front of a computer desk.The computer screen displays a 3D design drawing of the figurine's software interface.The figurine has a transparent base,and next to it is its matching packaging box,allowing the figurine to be seen.The overall scene is in a realistic style,with the character presented in an ultra-realistic manner.The image quality reaches 4K high definition,the lighting effects are bright and layered,and the colors are saturated and vibrant,showcasing the exquisite imaging effect of high-end photography.Visual Tone: The scene is rich in color and visually impactful.The camera should be able to display different grand backgrounds,with detailed and lively elements in the background,creating an immersive experience. 序言
文生图原理与提示词作用机制
1. 文生图模型的基本工作原理
2. 提示词为何如此关键?
提示词基础语法与结构
1. 核心结构:三段式“三明治”模型
[主体描述] + [环境与细节] + [风格与技术参数]1.1 主体描述层(核心焦点)
“一个女孩在森林里”❌1.2 环境与细节层(上下文丰富)
构图要素:视角、镜头类型、景深、灯光。
氛围元素:情绪、动态、互动关系。2. 语法规则详解
2.1 关键词优先级:加权与括号
多层嵌套:(masterpiece) 比 (masterpiece) 更强。
减权处理:[noise:0.8] 降低噪声相关特征。
最佳实践:主体元素权重1.1-1.3,次要元素0.8-0.9。2.2 分隔符使用规范
管道符可选:某些模型支持 | 表示“或”关系
避免使用:句号、分号、感叹号(可能被误解)2.3 否定提示词(Negative Prompt)
low quality, blurry, distorted faces, extra fingers, bad anatomy, watermark (低质量,模糊,扭曲的脸,多余的手指,糟糕的解剖结构,水印)
否定词应具体,避免泛泛的只有“ugly(丑的)”视觉概念的专业化表达
1. 人物与生物描述体系
1.1 面部特征矩阵举例
1.2 姿态与动作库
2. 空间与场景构建
2.1 视角术语表
2.2 光线与渲染词典
3. 材质与质感表达
风格化语言的系统构建
1. 艺术史风格参照系
2. 现代数字艺术风格
3. 混合风格创新
高级控图技术与参数优化
1. 组合提示词策略
1.1 多概念融合语法
a cat AND a dog wearing medieval armor, intricate detail (一只猫和一只狗穿着中世纪的盔甲,细节复杂)
某些模型支持注意力分离:[cow:horse:0.5] # 50%牛,50%马的特征1.2 分阶段提示
2. 种子控制与迭代优化
2.1 种子数(Seed)的作用
2.2 渐进式细化工作流
种子锁定:选择有潜力的种子固定。
增量调整:添加细节词,逐步细化,需要有耐心~
局部重绘:仅修改不满意区域即可。3. 参数调节
3.1 CFG Scale(提示词相关性)
低值(3-7):创意性更强,模型自由度大
高值(10-15):严格遵循提示,可能降低自然度3.2 采样步数(Steps)
过少:细节不足
过多:收益递减,可能过度平滑行业特定提示词构建
1. 产品设计与可视化
[产品类型], [材质描述], [表面/环境], [灯光设置], [视角], [棚内摄影], [渲染], [背景], [精度], 8k
大理石表面,柔和的工作室灯光
低角度拍摄,专业产品摄影,
极简构图,地面阴影,8k2. 角色概念设计
[角色身份] + [核心特质][标志性外观] + [装扮细节],[经典姿态] + [动态瞬间],[标志性场景] + [整体氛围/风格],[镜头角度]+[光影效果]3. 建筑与室内设计
[空间功能] + [理念/风格][硬装与布局] + [标志性家具与陈列],[活动场景] + [动态细节],[环境与氛围] + [设计流派],[观察视角]+[光影设计]常见问题诊断与优化
1. 问题举例
2. 迭代优化记录模板
# 初始提示[记录第一次尝试的完整提示词]# 生成结果分析优点:[列出成功的方面]问题:[具体描述问题]# 调整策略1. 修改:[具体修改内容]2. 添加:[新增关键词]3. 删除:[移除的关键词]4. 参数调整:[CFG、步骤等]# 新提示词[更新后的提示词]3. 概念冲突解决
忽视其一:权重低的被忽略
产生怪异:生成怪异不自然的融合
明确优先级,使用权重控制
分阶段生成,后期合成
寻找中间概念(如“数字油画”而非“数字+油画”)实战演练与思维训练
1. 从模糊想法到精确提示
地理特征:沿海/山地/漂浮/地下?
时间设定:近未来/远未来/后末日?
技术水平:高科技/衰败科技/生物科技?
社会氛围:乌托邦/反乌托邦/中性?
视觉焦点:建筑/交通/人物/标志物?
时间维度:白天/夜晚/黄昏/特殊天气?A bioluminescent neo-Tokyo at night, floating islands connected by light bridges, flying vehicles leaving light trails, cyberpunk aesthetic with Japanese influences, heavy rain reflecting neon signs, wide-angle cinematic shot, Unreal Engine 5 render, volumetric fog, 8k detailed
夜晚的生物发光新东京,漂浮的岛屿由光之桥相连,
飞行载具拖曳出光轨,融合日本元素的赛博朋克美学,
倾盆大雨中霓虹招牌倒映其上,广角电影级镜头,
Unreal Engine 5 渲染,体积雾效果,8K 超高细节2. 风格迁移练习
Portrait of a noblewoman, intricate lace collar, soft natural lighting, oil painting, Rembrandt style
一位贵妇的肖像,精致的蕾丝领口,
柔和自然的光线,油画形式,伦勃朗风格3. 复杂场景构建练习
心理学与认知原则在提示词中的应用
1. 格式塔原则在构图中的体现
相似性原则:repeating geometric patterns (重复的几何图案)
连续性原则:flowing river leading eye through composition (一条流淌的河流将视线引向画面的中心位置)
封闭性原则:implied shapes through negative space (通过负空间暗示形状)2. 色彩心理学词汇
蓝色:melancholic azure, tranquil cerulean (忧郁的蔚蓝,宁静的蔚蓝)
整体调性:analogous color scheme, complementary contrast (类似色配色方案,互补对比)3. 叙事性提示构建
A lone astronaut's helmet on Martian surface, reflecting a distant Earth, footprints leading away, sense of melancholy and discovery, cinematic wide shot, golden hour lighting
“火星表面一个孤独宇航员的头盔,”
“映照着遥远的地球,脚印一路延伸,”
“忧郁和发现的感觉,”
“电影式广角镜头,黄金时刻照明”未来趋势与高级概念
1. 动态提示与条件生成
时间序列提示:描述场景变化
交互式调整:实时修改特定区域
多模态输入:结合草图、色彩板等2. 个性化模型训练
概念嵌入:创建自定义人物/物体
领域适应:针对特定行业的优化3. 伦理与版权考量
文化敏感性:尊重不同文化表达
标签透明:标注AI生成内容结语:成为提示词艺术家
© 版权声明
文章版权归作者所有,未经允许请勿转载。














这结构讲得挺明白的,之前自己瞎试老是画歪。
权重控制那块儿还得再琢磨琢磨,感觉调不好就怪怪的。
有人试过那个分阶段描述的方法吗?管不管用?
示例里的未来城市描述绝了,照着写了一个效果还行。
那个负面提示词列表可以直接抄作业了,省事儿。
看到材质描述那段才反应过来,之前光说“金属”确实太笼统了。
长篇大论的,看完更懵了,有没有更简单的口诀啊?🤔
光影术语表收藏了,下次画人像试试轮廓光。