Scraping visual: JSON estructurado y registro en Sheets

Última actualización: 2/19/2026Tiempo de lectura: 1 min
#ExtraccionScreenshotAJson#MonitoreoDePreciosEcommerce#ScrapingCatalogoProductos#ScrapingSinSelectores#ParseoHtmlFallback#PipelineEnSheets

Este SOP extrae datos de producto sin depender de selectores frágiles XPath/CSS usando capturas como fuente principal. Mantén la lista de URLs en Google Sheets, genera una captura de página completa con ScrapingBee y pide a Gemini (Gemini 1.5 Pro) que lea la imagen y devuelva JSON estricto.

Si la página es ambigua (precio dinámico, texto pequeño, variantes), usa fallback a HTML y ejecuta el mismo schema JSON. Para reducir tokens, convierte HTML a markdown compacto antes del análisis. Está pensado para e-commerce, pero sirve para directorios, marketplaces y páginas de pricing SaaS. [file:81][web:82]

¿Para quién es esto?

Operaciones e-commerceAnalistas de growthCompetitive intelligenceData engineersEquipos marketplace

¿Qué problema resuelve?

Desafío

  • Los selectores se rompen cuando cambia el DOM.

  • Páginas dinámicas requieren mantenimiento constante.

  • Enviar HTML completo al LLM dispara costes.

Solución

  • Usa screenshots como superficie estable y solo haz fallback a HTML si hace falta.

  • La extracción visual tolera cambios de layout y reduce mantenimiento.

  • HTML a markdown compacto + JSON estricto reduce tokens y retrabajo.

Lo que lograrás con este kit de herramientas

Un método de scraping resistente a cambios de DOM que entrega JSON estructurado listo para hojas.

Extraer sin fragilidad de selectores

La visión lee lo que ve el usuario, así que cambios menores dejan de romper el pipeline.

Mantener precisión con fallback HTML

Si la captura es ambigua, el HTML actúa como fallback determinista.

Controlar tokens con markdown compacto

Markdown compacto reduce tokens vs HTML bruto y el JSON estricto reduce limpieza posterior.

Descripción del flujo de trabajo

1Lista URLs en Sheets
2Screenshot full-page con ScrapingBee
3Extracción JSON con Gemini Vision
4Fallback HTML
5Tabla de resultados en Sheets
1

Step 1: Encolar URLs en Google Sheets

Crea una tabla en Google Sheets con url, product_name, target_fields y status para que el scraping sea trazable y auditable.

Cola de URLs en Sheets para scraping

Por qué esta herramienta:

Se elige por su patrón de cola por filas, ideal para que perfiles no técnicos gestionen URLs y revisen JSON.

Google Sheets

Google Sheets

4.8FreemiumEN

Hojas de cálculo colaborativas e inteligentes con el poder de Gemini AI

2

Step 2: Capturar screenshots de página completa

Usa ScrapingBee para capturar screenshot full-page por URL y permitir lectura visual (incluye contenido post-render). [web:82]

Screenshot full-page de una página de producto

Por qué esta herramienta:

Se elige ScrapingBee por su Screenshot API full-page, que aporta píxeles estables al modelo de visión aunque el DOM sea frágil.

ScrapingBee

ScrapingBee

4.1Contact UsEN

API de scraping con proxies y headless browser

3

Step 3: Extraer JSON estructurado con Gemini Vision

Envía el screenshot a Gemini y pide un schema estricto (nombre, precio, moneda, stock, variantes). Si no es JSON válido, rechaza y reintenta con más restricciones. [file:81]

JSON estructurado extraído de un screenshot

Por qué esta herramienta:

Se elige por su visión multimodal que lee el layout renderizado, haciendo la extracción más robusta cuando el HTML es inconsistente.

Gemini

Gemini

4.8FreemiumEN

Automatiza Flujos de Trabajo en Google Workspace

4

Step 4: Hacer fallback a HTML si el screenshot es ambiguo

Si no se puede extraer con confianza desde píxeles, obtén el HTML, conviértelo a markdown compacto para reducir tokens y reejecuta el mismo schema. [file:81]

Vista compacta HTML→markdown para extracción

5

Step 5: Volcar resultados a Google Sheets

Añade los campos extraídos a Google Sheets con timestamp para seguir cambios de precio/stock en el tiempo. [file:81]

Tabla en Sheets con campos extraídos y timestamps

Por qué esta herramienta:

Se elige porque el append genera auditoría y el formato tabular facilita QA y monitoreo de precios sin BI extra.

Google Sheets

Google Sheets

4.8FreemiumEN

Hojas de cálculo colaborativas e inteligentes con el poder de Gemini AI

Flujos de trabajo similares

¿Buscas herramientas diferentes? Explora estos flujos de trabajo alternativos.

Preguntas frecuentes

Sí. Captura screenshot → pide JSON a Gemini → pega en Google Sheets.

Porque el screenshot suele ser estable aunque cambie el DOM. Selectores son precisos, pero se rompen; la visión lee el render real.

Coste y ambigüedad. Las imágenes pueden costar más y el texto pequeño reduce certeza; por eso el fallback HTML y el schema estricto son clave. [file:81]

Usa screenshots solo donde fallan selectores, comprime HTML a markdown en fallback y fuerza JSON estricto para evitar reintentos. [file:81]

Depende. Debes cumplir leyes locales, ToS y robots. La plantilla advierte explícitamente revisar regulaciones. [file:81]

Si el DOM es estable, usa parsing clásico con selectores y añade Gemini solo para limpiar casos límite. La visión brilla cuando el mantenimiento de selectores es el cuello de botella. [file:81]