视觉化网页采集:抽结构化 JSON 并写入 Sheets

最后更新: 2/19/2026阅读时间: 1 分钟
#截图到JSON抽取#电商价格监控#商品目录采集#免选择器采集#HTML回退解析#Sheets数据管道

这套 SOP 用“截图”替代脆弱的 XPath/CSS 选择器,让网页采集更稳:你在 Google Sheets 里维护 URL 清单,用 ScrapingBee 抓取整页截图,然后让 Gemini(Gemini 1.5 Pro)读图并输出严格 JSON。

遇到页面歧义(动态价格、字号太小、规格变体)时,改走 HTML 抽取并按同一 JSON schema 回填。为控制 token 成本,可先把 HTML 转成更紧凑的 markdown 再交给模型分析。模板偏电商,但同样适用于目录站、市场平台与 SaaS 定价页。 [file:81][web:82]

谁适合用?

电商运营增长分析师竞品情报数据工程师平台型团队

解决了什么问题?

挑战

  • DOM 一变选择器就挂,维护成本极高。

  • 动态页面采集要不断“工程陪跑”。

  • 把整段 HTML 送进模型,token 成本飙升。

解决方案

  • 以截图作为稳定抽取面,必要时再回退 HTML。

  • 视觉抽取可覆盖更多布局变化,降低维护频率。

  • HTML→markdown 压缩 + 严格 JSON 输出,减少 token 与返工。

使用此工具包你将获得的成果

一套“DOM 变了也能跑”的采集方法论,把网页变成可直接入表的结构化 JSON。

免选择器脆弱性抽取数据

视觉抽取读的是“用户看到的内容”,小幅 DOM 变化不再让管道崩掉。

用 HTML 回退守住准确性

当截图信息不够确定时,用 HTML 提供更可控的兜底抽取。

用 markdown 压缩控制 token 成本

markdown 比原始 HTML 更省 token,同时严格 JSON 输出减少清洗成本。

流程概览

1Sheets URL 清单
2ScrapingBee 整页截图
3Gemini 视觉抽取 JSON >(必要时)HTML 回退
4Sheets 结果表
1

Step 1: 在 Google Sheets 排队 URL

Google Sheets 建一个表,包含 url、product_name、target_fields、status 等列,让采集过程可追踪、可审计。

待采集 URL 的 Google Sheets 队列

推荐理由:

选择它是因为“行队列”天然适合协作排队与验收,非技术同事也能加 URL、看 JSON 结果。

Google 表格

Google 表格

4.8FreemiumEN

集成 Gemini AI 的智能协作云端表格

2

Step 2: 抓取整页截图

ScrapingBee 为每个 URL 抓取整页截图,让模型从视觉层读页面(包含渲染后加载的内容)。 [web:82]

商品页整页截图示意

推荐理由:

选择 ScrapingBee 是因为其 Screenshot API 可稳定抓整页渲染结果,让视觉模型基于“像素证据”工作,减少 DOM 脆弱性。

ScrapingBee

ScrapingBee

4.1Contact UsEN

面向数据采集的代理与无头浏览器 API

3

Step 3: 用 Gemini 视觉抽取结构化 JSON

把截图交给 Gemini,要求按严格 schema 输出(商品名、价格、币种、库存、规格)。对非 JSON 输出直接拒绝并用更强约束重试。 [file:81]

从商品截图抽取出的结构化 JSON

推荐理由:

选择它是因为多模态视觉能力可以读“渲染后的页面布局”,当 HTML 结构不一致时更稳。

Gemini

Gemini

4.8FreemiumEN

在 Google Workspace 中自动化所有工作流

4

Step 4: 截图不确定时回退到 HTML

当模型无法从像素层稳定抽取字段时,抓取 HTML 并转成更紧凑的 markdown 以降低 token 成本,再按同一 schema 重跑抽取。 [file:81]

用于抽取的 HTML 转 markdown 压缩视图

5

Step 5: 把结果写回 Google Sheets

把抽取出的 JSON 字段追加写入 Google Sheets,并记录运行时间戳,方便追踪价格/库存变化。 [file:81]

包含商品字段与时间戳的 Sheets 表

推荐理由:

选择它是因为追加写入天然形成审计轨迹,表格形态也让价格监控与 QA 更简单,不必上 BI。

Google 表格

Google 表格

4.8FreemiumEN

集成 Gemini AI 的智能协作云端表格

相似工作流

正在寻找不同的工具?探索这些替代工作流。

常见问题

可以。手动路径是:截图 → 让 Gemini 输出严格 JSON → 把结果粘贴到 Google Sheets。自动化只是扩大排队规模。

因为 DOM 变动时截图更稳定。选择器虽然精确,但很脆;视觉抽取读渲染结果,维护频率更低。

成本与歧义。图像会增加处理成本,小字/遮罩也会降低确定性,所以需要 HTML 回退与严格 schema。 [file:81]

只在选择器不稳的页面用截图;文本回退时把 HTML 压缩成 markdown;并用严格 JSON 输出减少重试。 [file:81]

视情况而定。你需要遵守当地法律、网站服务条款与 robots 指引,尤其是电商数据场景。模板也明确提醒先检查合规性。 [file:81]

如果 DOM 稳定,就用传统选择器解析,只有在边角清洗时才引入 Gemini。视觉抽取更适合“选择器维护是瓶颈”的场景。 [file:81]