MCP 문서 관리

메뉴

문서 정보

최종 수정일:
2025-05-16 15:13

Firecrawl

Firecrawl

Firecrawl MCP 서버는 Model Context Protocol 표준을 통해 AI 어시스턴트에게 강력한 웹 스크래핑 및 크롤링 기능을 제공하는 서버 구현체입니다. 이 서버는 JavaScript 렌더링, 배치 처리, 검색 기능을 통해 웹 콘텐츠를 효과적으로 추출하고 분석할 수 있도록 합니다.

특징

  • 고급 웹 스크래핑: JavaScript 렌더링을 통한 동적 웹페이지 스크래핑
  • PDF 지원: PDF 문서에서 콘텐츠 추출
  • 배치 처리: 여러 URL을 병렬로 처리하는 배치 작업 지원
  • 스마트 레이트 제한: 자동 재시도 및 지능적인 레이트 제한 처리
  • 구조화된 데이터 추출: 웹페이지에서 구조화된 데이터 추출
  • llms.txt 생성: LLM 친화적인 데이터 형식으로 변환
  • 자체 호스팅 지원: 자체 서버에서 인스턴스 실행 가능
  • 병렬 처리: 효율적인 크롤링을 위한 병렬 처리 기능
  • 콘텐츠 필터링: 관련성 높은 콘텐츠만 선택적으로 추출

API

리소스

  • WebContent: 스크래핑된 웹 콘텐츠
  • ScrapeResult: 스크래핑 작업 결과
  • BatchOperation: 배치 작업 상태 및 결과
  • LLMSTxt: LLM 친화적인 데이터 형식

도구

firecrawl_scrape

웹페이지의 콘텐츠를 스크래핑합니다. - 입력: - url: 스크래핑할 웹페이지 URL - js_render: JavaScript 렌더링 사용 여부(선택, 기본값: true) - max_pages: 크롤링할 최대 페이지 수(선택, 기본값: 1) - output_format: 출력 포맷("text", "html", "markdown", 선택) - timeout: 타임아웃 값(밀리초, 선택)

firecrawl_batch_scrape

여러 URL을 병렬로 스크래핑합니다. - 입력: - urls: 스크래핑할 URL 배열 - js_render: JavaScript 렌더링 사용 여부(선택, 기본값: true) - max_pages_per_url: URL당 크롤링할 최대 페이지 수(선택) - output_format: 출력 포맷(선택) - parallel: 병렬 처리 수(선택, 기본값: 3)

firecrawl_search

키워드로 웹사이트 내 콘텐츠를 검색합니다. - 입력: - url: 검색할 웹사이트 URL - query: 검색 키워드 - max_results: 반환할 최대 결과 수(선택) - js_render: JavaScript 렌더링 사용 여부(선택)

firecrawl_generate_llmstxt

웹사이트의 콘텐츠를 LLM 친화적인 형식으로 생성합니다. - 입력: - url: 처리할 웹사이트 URL - maxUrls: 처리할 최대 URL 수(선택, 기본값: 20) - showFullText: 전체 텍스트 포함 여부(선택, 기본값: true)

사용 방법

설치 및 구성

  1. Firecrawl API 키 발급
  2. Firecrawl 웹사이트에서 API 키 발급
  3. NPX를 통한 설치 및 실행
    env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
  4. Claude Desktop 구성 파일에 추가
    {
      "mcpServers": {
        "mcp-server-firecrawl": {
          "command": "npx",
          "args": ["-y", "firecrawl-mcp"],
          "env": {
            "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE"
          }
        }
      }
    }
  5. Server-Sent Events(SSE)를 사용한 로컬 실행
    env SSE_LOCAL=true FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp

VS Code 설정

VS Code의 settings.json 파일에 다음 설정을 추가합니다:

{
  "mcp": {
    "inputs": [
      {
        "type": "promptString",
        "id": "apiKey",
        "description": "Firecrawl API Key",
        "password": true
      }
    ],
    "servers": {
      "firecrawl": {
        "command": "npx",
        "args": ["-y", "firecrawl-mcp"],
        "env": {
          "FIRECRAWL_API_KEY": "${input:apiKey}"
        }
      }
    }
  }
}

사용 예시

  • 웹페이지 스크래핑: "이 URL에서 모든 텍스트 콘텐츠를 추출해줘"
  • 여러 페이지 크롤링: "이 웹사이트의 모든 블로그 게시물을 크롤링해줘"
  • 콘텐츠 검색: "이 웹사이트에서 '인공지능' 관련 콘텐츠를 검색해줘"
  • LLM 형식 변환: "이 웹사이트를 LLM이 이해하기 쉬운 형식으로 변환해줘"

주의사항

  • API 키는 민감한 정보이므로 안전하게 관리해야 함
  • 웹사이트의 robots.txt 및 이용 약관을 반드시 준수해야 함
  • 대량의 API 호출은 요금이 발생할 수 있으므로 사용량을 모니터링해야 함
  • 레이트 제한 초과 시 자동 재시도되나, 과도한 요청은 피해야 함

연결된 구성 요소