비전 기반 웹 스크래핑: JSON 추출 후 Sheets 기록
이 SOP는 XPath/CSS 셀렉터에 의존하지 않고, 스크린샷을 1차 근거로 상품 데이터를 추출합니다. Google Sheets 에 URL을 관리하고, ScrapingBee 로 전체 페이지 스크린샷을 캡처한 뒤, Gemini(Gemini 1.5 Pro) 에게 읽혀 엄격한 JSON으로 받습니다.
페이지가 애매할 때(동적 가격, 작은 글씨, 옵션/변형)에는 HTML 추출로 폴백하고 동일 JSON 스키마로 다시 실행합니다. 토큰 비용을 줄이려면 HTML을 더 압축적인 마크다운으로 변환해 모델에 전달하세요. 이커머스용으로 설계됐지만 디렉터리/마켓플레이스/SaaS 가격 페이지에도 확장 가능합니다. [file:81][web:82]
누구에게 적합한가요?
어떤 문제를 해결하나요?
과제
DOM이 바뀌면 셀렉터가 바로 깨진다.
동적 페이지는 유지보수에 계속 사람이 붙는다.
HTML 전체를 LLM에 보내면 비용이 폭증한다.
솔루션
스크린샷을 안정적인 추출 표면으로 쓰고 필요할 때만 HTML 폴백.
비전 추출로 레이아웃 변화 대응력을 높여 운영 부담을 줄인다.
HTML→압축 마크다운 + 엄격 JSON으로 토큰/재작업을 줄인다.
이 툴킷으로 달성할 수 있는 결과
DOM이 바뀌어도 돌아가는 수집 방법론으로, 스프레드시트에 신뢰 가능한 JSON을 제공합니다.
셀렉터 취약성 제거
비전 추출은 사람이 보는 화면을 읽어 작은 DOM 변화에 덜 깨집니다.
HTML 폴백으로 정확도 확보
스크린샷이 애매하면 HTML이 결정론적 폴백이 됩니다.
마크다운 압축으로 토큰 비용 제어
원본 HTML보다 마크다운이 토큰을 줄이고, 엄격 JSON 출력이 정리 비용을 낮춥니다.
워크플로우 개요
Step 1: Google Sheets에 URL 큐잉하기
Google Sheets 에 url, product_name, target_fields, status 컬럼을 만들어 추적/감사 가능한 운영 형태로 만드세요.
스크래핑 대상 URL Sheets 큐
공유 가능한 행 큐라 비기술자도 URL 추가와 결과 검수가 가능합니다.
Step 2: 전체 페이지 스크린샷 캡처하기
ScrapingBee 로 URL별 전체 페이지 스크린샷을 캡처해 모델이 시각적으로 페이지를 읽게 합니다(렌더 후 로드된 요소 포함). [web:82]
상품 페이지 전체 스크린샷
ScrapingBee는 전체 페이지 렌더를 캡처하는 Screenshot API가 강점이라 DOM이 불안정해도 비전 모델 입력이 안정적입니다.
Step 3: Gemini 비전으로 구조화 JSON 추출하기
스크린샷을 Gemini 에 보내 엄격한 스키마(상품명, 가격, 통화, 재고, 옵션)로 JSON을 요청하세요. JSON이 아니면 거부하고 제약을 강화해 재시도합니다. [file:81]
상품 스크린샷에서 추출한 구조화 JSON
렌더링된 레이아웃을 읽는 멀티모달 비전으로 HTML 구조가 들쭉날쭉해도 견고합니다.
Step 4: 스크린샷이 애매하면 HTML로 폴백
픽셀에서 필드 추출이 불확실하면 HTML을 가져와 토큰을 줄이기 위해 압축 마크다운으로 변환한 뒤 동일 스키마로 재추출합니다. [file:81]
추출용 HTML→마크다운 압축 뷰
Step 5: 결과를 Google Sheets로 기록하기
추출된 JSON 필드를 Google Sheets 에 추가하고 실행 타임스탬프를 저장해 가격/재고 변화를 추적하세요. [file:81]
상품 필드+타임스탬프가 있는 Sheets 테이블
행 추가는 감사 로그를 만들고, 테이블 포맷은 가격 모니터링/QA를 BI 없이도 쉽게 합니다.
유사 워크플로우
다른 툴을 찾으시나요? 대체 워크플로우를 살펴보세요.
뉴스 소스를 지속적으로 AI 뉴스 영상으로 전환하고 여러 채널에 배포하는 방법입니다.GPT-4o로 캡션을 만들고, HeyGen으로 아바타 영상을 생성한 뒤, Postiz로 Instagram, Facebook, YouTube에 통합 발행합니다.
하나의 캠페인 브리프를 플랫폼별 게시물로 변환합니다. GPT-4o와 Gemini로 생성하고 Gmail 이중 승인 후 Buffer로 예약 게시, Telegram으로 상태를 공유합니다.
1인 미디어 슈퍼 팩토리는 창의적인 아이디어를 단 몇 시간 만에 4K 초실사 비디오로 변환하도록 설계된 통합 워크플로우입니다. GPT-4o, Sora, ElevenLabs를 결합하여 값비싼 장비 없이도 영화 수준의 콘텐츠를 자동 생산할 수 있게 도와줍니다.
자주 묻는 질문
네. 스크린샷 캡처→Gemini JSON 출력→Google Sheets 기록으로 수동도 가능합니다.
DOM이 바뀌어도 스크린샷은 렌더 결과로 비교적 안정적입니다. 셀렉터는 정밀하지만 자주 깨집니다.
비용과 모호성입니다. 이미지 처리 비용이 들고 작은 글씨/오버레이로 확신도가 떨어질 수 있어 HTML 폴백과 엄격 스키마가 필요합니다. [file:81]
셀렉터가 불안정한 페이지만 스크린샷을 쓰고, 텍스트 폴백은 HTML을 마크다운으로 압축하며, 엄격 JSON으로 재시도를 줄이세요. [file:81]
케이스 바이 케이스입니다. 현지 법률/서비스 약관/robots를 준수해야 하며, 템플릿도 법적 규정 확인을 명시합니다. [file:81]
DOM이 안정적이면 클래식 셀렉터 파싱이 더 가볍습니다. Gemini 는 예외 케이스 정리에만 쓰세요. [file:81]