视觉化网页采集:抽结构化 JSON 并写入 Sheets
这套 SOP 用“截图”替代脆弱的 XPath/CSS 选择器,让网页采集更稳:你在 Google Sheets 里维护 URL 清单,用 ScrapingBee 抓取整页截图,然后让 Gemini(Gemini 1.5 Pro)读图并输出严格 JSON。
遇到页面歧义(动态价格、字号太小、规格变体)时,改走 HTML 抽取并按同一 JSON schema 回填。为控制 token 成本,可先把 HTML 转成更紧凑的 markdown 再交给模型分析。模板偏电商,但同样适用于目录站、市场平台与 SaaS 定价页。 [file:81][web:82]
谁适合用?
解决了什么问题?
挑战
DOM 一变选择器就挂,维护成本极高。
动态页面采集要不断“工程陪跑”。
把整段 HTML 送进模型,token 成本飙升。
解决方案
以截图作为稳定抽取面,必要时再回退 HTML。
视觉抽取可覆盖更多布局变化,降低维护频率。
HTML→markdown 压缩 + 严格 JSON 输出,减少 token 与返工。
使用此工具包你将获得的成果
一套“DOM 变了也能跑”的采集方法论,把网页变成可直接入表的结构化 JSON。
免选择器脆弱性抽取数据
视觉抽取读的是“用户看到的内容”,小幅 DOM 变化不再让管道崩掉。
用 HTML 回退守住准确性
当截图信息不够确定时,用 HTML 提供更可控的兜底抽取。
用 markdown 压缩控制 token 成本
markdown 比原始 HTML 更省 token,同时严格 JSON 输出减少清洗成本。
流程概览
Step 1: 在 Google Sheets 排队 URL
在 Google Sheets 建一个表,包含 url、product_name、target_fields、status 等列,让采集过程可追踪、可审计。
待采集 URL 的 Google Sheets 队列
选择它是因为“行队列”天然适合协作排队与验收,非技术同事也能加 URL、看 JSON 结果。
Step 2: 抓取整页截图
用 ScrapingBee 为每个 URL 抓取整页截图,让模型从视觉层读页面(包含渲染后加载的内容)。 [web:82]
商品页整页截图示意
选择 ScrapingBee 是因为其 Screenshot API 可稳定抓整页渲染结果,让视觉模型基于“像素证据”工作,减少 DOM 脆弱性。
Step 3: 用 Gemini 视觉抽取结构化 JSON
把截图交给 Gemini,要求按严格 schema 输出(商品名、价格、币种、库存、规格)。对非 JSON 输出直接拒绝并用更强约束重试。 [file:81]
从商品截图抽取出的结构化 JSON
选择它是因为多模态视觉能力可以读“渲染后的页面布局”,当 HTML 结构不一致时更稳。
Step 4: 截图不确定时回退到 HTML
当模型无法从像素层稳定抽取字段时,抓取 HTML 并转成更紧凑的 markdown 以降低 token 成本,再按同一 schema 重跑抽取。 [file:81]
用于抽取的 HTML 转 markdown 压缩视图
Step 5: 把结果写回 Google Sheets
把抽取出的 JSON 字段追加写入 Google Sheets,并记录运行时间戳,方便追踪价格/库存变化。 [file:81]
包含商品字段与时间戳的 Sheets 表
选择它是因为追加写入天然形成审计轨迹,表格形态也让价格监控与 QA 更简单,不必上 BI。
相似工作流
正在寻找不同的工具?探索这些替代工作流。
这套方法可以把新闻源持续转化为可发布的 AI 新闻视频, 并完成跨平台分发。将 GPT-4o 用于生成简洁文案, 用 HeyGen 输出虚拟人视频, 再用 Postiz 统一发布到 Instagram、Facebook 与 YouTube。
把一份活动 Brief 变成多平台优化文案:用 GPT-4o 与 Gemini 生成内容,通过 Gmail 做双重审批,再用 Buffer 排程发布,并用 Telegram 同步状态。
个人自媒体超级工厂是一套闭环的视频生产方案,旨在将创意想法直接转化为 4K 超写实节目。通过集成 GPT-4o、Sora 和 ElevenLabs,本工具包帮助内容创作者实现从文案到成片的自动化,彻底瓦解重资产拍摄门槛,让单人即可支撑起电影级频道。
常见问题
可以。手动路径是:截图 → 让 Gemini 输出严格 JSON → 把结果粘贴到 Google Sheets。自动化只是扩大排队规模。
因为 DOM 变动时截图更稳定。选择器虽然精确,但很脆;视觉抽取读渲染结果,维护频率更低。
成本与歧义。图像会增加处理成本,小字/遮罩也会降低确定性,所以需要 HTML 回退与严格 schema。 [file:81]
只在选择器不稳的页面用截图;文本回退时把 HTML 压缩成 markdown;并用严格 JSON 输出减少重试。 [file:81]
视情况而定。你需要遵守当地法律、网站服务条款与 robots 指引,尤其是电商数据场景。模板也明确提醒先检查合规性。 [file:81]
如果 DOM 稳定,就用传统选择器解析,只有在边角清洗时才引入 Gemini。视觉抽取更适合“选择器维护是瓶颈”的场景。 [file:81]