用 Gemini 和 ChatGPT 自动生成营销视觉内容
谁适合用?
解决了什么问题?
挑战
每做一套横幅或竖版素材都要找设计, 沟通和排期成本高, 等待时间长。
不同活动渠道需要不同尺寸, 手工裁切导出既枯燥又容易出错。
市场同学不会用专业设计软件, 只能不断截屏和搬运素材。
解决方案
用固定结构的提示词模板交给 AI 批量出图, 在几分钟内拿到多版方案, 软件订阅成本远低于外包。
统一以 1080x1920 竖版为基础, 复用模板, 快速覆盖短视频、故事和信息流广告等主流场景。
用聊天式入口提交需求并直接返回可下载图片, 降低参与门槛, 让更多人参与创意实验。
使用此工具包你将获得的成果
过去每做一套新素材都要写 Brief 找设计, 现在你可以用一套可复用的提示词和流程, 在几小时内完成从文案到竖版图片的全链路产出。
掌控自有视觉生产线
从需求收集到素材交付都掌握在营销团队自己手中, 不再受制于外包档期和沟通成本, 创意实验可以随时发起。
在不扩招的前提下放大创意实验
一旦提示词模版和规则设定好, 非设计同学也能安全地产出符合品牌调性的图片, 让专业设计师专注在关键 KV 与大项目。
在多活动场景下保持画面一致性
通过统一图片尺寸、版式和提示词结构, 每一张图都遵循相同的视觉规则, 让信息流和落地页在第一眼就显得专业统一。
流程概览
Step 1: 收集用户图像生成需求
让需求方用自然语言描述所需图片, 包括主体、风格、情绪以及使用场景, 并通过聊天入口(例如 Telegram)或简单的网页表单把这段文字记录下来, 作为后续生成的基础提示词。
用户在聊天窗口发送图像生成需求提示词的截图。
选择 Telegram 作为常驻聊天入口, 让非技术同学也能直接在手机中提交图像需求, 无需登录额外后台系统。
Step 2: 用 ChatGPT 优化与扩展提示词
把用户最初的描述交给 ChatGPT, 要求它扩写并结构化提示词, 明确主体、镜头、风格、光线以及长宽比等要素。将优化后的提示词沉淀为可复用模板, 以后同类活动只需微调参数即可, 无需每次重新从零写起。
界面中左侧为用户原始描述, 右侧为 AI 生成的结构化提示词。
之所以选择 ChatGPT, 是因为它在自然语言理解和推理上的优势, 可以把一句话的模糊想法拆解为图像模型易于执行的详细提示词。
Step 3: 使用 Gemini 生成图像
将优化后的提示词发送给 Gemini, 指定竖版分辨率(例如 1080x1920), 一次请求生成一张或多张候选图片。如需探索不同配色或构图, 可以在保持主体布局不变的前提下微调提示词并再次生成。
AI 图像生成界面中展示由同一提示词生成的多张竖版图片候选。
选择 Gemini 作为主要图像引擎, 因为它可以从文本提示快速生成高质量图片, 并提供相对宽松的免费额度, 适合频繁实验。
Step 4: 审核并交付最终图片
由人工快速检查生成图片是否符合品牌安全、文字可读性以及活动目标, 通过聊天或共享文件夹把审核通过的文件交付给需求方。同时记录提示词与对应输出, 方便将效果最好的素材在后续活动中复用或迭代。
营销看板界面中, 一张通过审核的 AI 图片被分享回需求方。
利用 Google Drive 作为中立的共享文件夹, 以活动维度整理图片文件, 方便市场、设计和销售随时查找, 无需再在聊天记录中反复翻找。
相似工作流
正在寻找不同的工具?探索这些替代工作流。
这套方法可以把新闻源持续转化为可发布的 AI 新闻视频, 并完成跨平台分发。将 GPT-4o 用于生成简洁文案, 用 HeyGen 输出虚拟人视频, 再用 Postiz 统一发布到 Instagram、Facebook 与 YouTube。
把一份活动 Brief 变成多平台优化文案:用 GPT-4o 与 Gemini 生成内容,通过 Gmail 做双重审批,再用 Buffer 排程发布,并用 Telegram 同步状态。
个人自媒体超级工厂是一套闭环的视频生产方案,旨在将创意想法直接转化为 4K 超写实节目。通过集成 GPT-4o、Sora 和 ElevenLabs,本工具包帮助内容创作者实现从文案到成片的自动化,彻底瓦解重资产拍摄门槛,让单人即可支撑起电影级频道。
常见问题
不需要。本工具包描述的是从提示词到图片的通用 SOP, 你可以纯手工执行, 也可以接入任意熟悉的编排平台, 只要它能调用当下主流的 AI 接口即可。
在多数地区, AI 生成图片可以用于商业用途, 但你仍需确认各家服务的最新使用条款, 并避免生成敏感或受限内容。
对于需要极高细节控制的品牌主视觉或复杂三维场景, 仍然更适合由人工设计完成; 同时 AI 模型有时会生成不符合品牌调性的姿势或瑕疵, 因此在对外发布前必须保留人工审核环节。
可以。只要图像模型支持文本提示输入, 聊天模型可以重写提示词, 整体逻辑就对服务商无关; 你可以替换为 Microsoft Copilot 等其他模型, 而无需修改这套 SOP 的主干步骤。
可以把表现最好的提示词和少量示例图片整理成一份共享风格手册, 在 ChatGPT 中优化提示词时始终从这些模板出发, 这样即便不断测试新创意, 输出也能保持在统一的品牌风格之内。