문서 정보
Firecrawl
Firecrawl
Firecrawl MCP 서버는 Model Context Protocol 표준을 통해 AI 어시스턴트에게 강력한 웹 스크래핑 및 크롤링 기능을 제공하는 서버 구현체입니다. 이 서버는 JavaScript 렌더링, 배치 처리, 검색 기능을 통해 웹 콘텐츠를 효과적으로 추출하고 분석할 수 있도록 합니다.
특징
- 고급 웹 스크래핑: JavaScript 렌더링을 통한 동적 웹페이지 스크래핑
- PDF 지원: PDF 문서에서 콘텐츠 추출
- 배치 처리: 여러 URL을 병렬로 처리하는 배치 작업 지원
- 스마트 레이트 제한: 자동 재시도 및 지능적인 레이트 제한 처리
- 구조화된 데이터 추출: 웹페이지에서 구조화된 데이터 추출
- llms.txt 생성: LLM 친화적인 데이터 형식으로 변환
- 자체 호스팅 지원: 자체 서버에서 인스턴스 실행 가능
- 병렬 처리: 효율적인 크롤링을 위한 병렬 처리 기능
- 콘텐츠 필터링: 관련성 높은 콘텐츠만 선택적으로 추출
API
리소스
- WebContent: 스크래핑된 웹 콘텐츠
- ScrapeResult: 스크래핑 작업 결과
- BatchOperation: 배치 작업 상태 및 결과
- LLMSTxt: LLM 친화적인 데이터 형식
도구
firecrawl_scrape
웹페이지의 콘텐츠를 스크래핑합니다.
- 입력:
- url: 스크래핑할 웹페이지 URL
- js_render: JavaScript 렌더링 사용 여부(선택, 기본값: true)
- max_pages: 크롤링할 최대 페이지 수(선택, 기본값: 1)
- output_format: 출력 포맷("text", "html", "markdown", 선택)
- timeout: 타임아웃 값(밀리초, 선택)
firecrawl_batch_scrape
여러 URL을 병렬로 스크래핑합니다.
- 입력:
- urls: 스크래핑할 URL 배열
- js_render: JavaScript 렌더링 사용 여부(선택, 기본값: true)
- max_pages_per_url: URL당 크롤링할 최대 페이지 수(선택)
- output_format: 출력 포맷(선택)
- parallel: 병렬 처리 수(선택, 기본값: 3)
firecrawl_search
키워드로 웹사이트 내 콘텐츠를 검색합니다.
- 입력:
- url: 검색할 웹사이트 URL
- query: 검색 키워드
- max_results: 반환할 최대 결과 수(선택)
- js_render: JavaScript 렌더링 사용 여부(선택)
firecrawl_generate_llmstxt
웹사이트의 콘텐츠를 LLM 친화적인 형식으로 생성합니다.
- 입력:
- url: 처리할 웹사이트 URL
- maxUrls: 처리할 최대 URL 수(선택, 기본값: 20)
- showFullText: 전체 텍스트 포함 여부(선택, 기본값: true)
사용 방법
설치 및 구성
- Firecrawl API 키 발급
- Firecrawl 웹사이트에서 API 키 발급
- NPX를 통한 설치 및 실행
env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp - Claude Desktop 구성 파일에 추가
{ "mcpServers": { "mcp-server-firecrawl": { "command": "npx", "args": ["-y", "firecrawl-mcp"], "env": { "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE" } } } } - Server-Sent Events(SSE)를 사용한 로컬 실행
env SSE_LOCAL=true FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
VS Code 설정
VS Code의 settings.json 파일에 다음 설정을 추가합니다:
{
"mcp": {
"inputs": [
{
"type": "promptString",
"id": "apiKey",
"description": "Firecrawl API Key",
"password": true
}
],
"servers": {
"firecrawl": {
"command": "npx",
"args": ["-y", "firecrawl-mcp"],
"env": {
"FIRECRAWL_API_KEY": "${input:apiKey}"
}
}
}
}
}
사용 예시
- 웹페이지 스크래핑: "이 URL에서 모든 텍스트 콘텐츠를 추출해줘"
- 여러 페이지 크롤링: "이 웹사이트의 모든 블로그 게시물을 크롤링해줘"
- 콘텐츠 검색: "이 웹사이트에서 '인공지능' 관련 콘텐츠를 검색해줘"
- LLM 형식 변환: "이 웹사이트를 LLM이 이해하기 쉬운 형식으로 변환해줘"
주의사항
- API 키는 민감한 정보이므로 안전하게 관리해야 함
- 웹사이트의 robots.txt 및 이용 약관을 반드시 준수해야 함
- 대량의 API 호출은 요금이 발생할 수 있으므로 사용량을 모니터링해야 함
- 레이트 제한 초과 시 자동 재시도되나, 과도한 요청은 피해야 함