Firecrawl
Скрапинг, поиск, обход, картографирование и извлечение веб-данных
Firecrawl — это мощный API для веб-скрапинга и извлечения контента, который бесшовно интегрируется в AACFlow, позволяя разработчикам извлекать чистый, структурированный контент с любого веб-сайта. Эта интеграция предоставляет простой способ преобразования веб-страниц в удобные форматы данных, такие как Markdown и HTML, с сохранением основного содержимого.
С помощью Firecrawl в AACFlow вы можете:
- Извлекать чистый контент: Удалять рекламу, элементы навигации и другие отвлекающие элементы, чтобы получить только основной контент
- Преобразовывать в структурированные форматы: Преобразовывать веб-страницы в Markdown, HTML или JSON
- Захватывать метаданные: Извлекать SEO-метаданные, Open Graph теги и другую информацию о странице
- Обрабатывать сайты с большим количеством JavaScript: Обрабатывать контент из современных веб-приложений, которые полагаются на JavaScript
- Фильтровать контент: Фокусироваться на конкретных частях страницы с использованием CSS-селекторов
- Обрабатывать в масштабе: Обрабатывать потребности в скрапинге большого объема с надежным API
- Искать в интернете: Выполнять интеллектуальный веб-поиск и получать структурированные результаты
- Обходить целые сайты: Обходить несколько страниц с веб-сайта и агрегировать их контент
В AACFlow интеграция Firecrawl позволяет вашим агентам получать доступ и обрабатывать веб-контент программно в рамках их рабочих процессов. Поддерживаемые операции включают:
- Скрапинг: Извлечение структурированного контента (Markdown, HTML, метаданные) с одной веб-страницы.
- Поиск: Поиск информации в интернете с использованием интеллектуальных возможностей поиска Firecrawl.
- Обход: Обход нескольких страниц с веб-сайта, возвращая структурированный контент и метаданные для каждой страницы.
Это позволяет вашим агентам собирать информацию с веб-сайтов, извлекать структурированные данные и использовать эту информацию для принятия решений или генерации инсайтов — все без необходимости навигации по сложностям парсинга сырого HTML или автоматизации браузера. Просто настройте блок Firecrawl с вашим API-ключом, выберите операцию (Scrape, Поиск или Crawl) и укажите соответствующие параметры. Ваши агенты могут немедленно начать работать с веб-контентом в чистом, структурированном формате.
Интегрируйте Firecrawl в рабочий процесс. Скрапите страницы, ищите в интернете, обходите целые сайты, картографируйте структуры URL и извлекайте структурированные данные с помощью AI.
Извлечь структурированный контент с веб-страниц с поддержкой комплексных метаданных. Преобразует контент в markdown или HTML, захватывая SEO-метаданные, Open Graph теги и информацию о странице.
| Параметр | Тип | Обязательный | Описание |
|---|
url | string | Да | URL для скрапинга контента (например, "https://example.com/page") |
scrapeOptions | json | Нет | Опции для скрапинга контента |
apiKey | string | Да | API-ключ Firecrawl |
pricing | custom | Нет | Нет описания |
metadata | string | Нет | Нет описания |
rateLimit | string | Нет | Нет описания |
| Параметр | Тип | Описание |
|---|
markdown | string | Контент страницы в формате markdown |
html | string | Сырой HTML-контент страницы |
metadata | object | Метаданные страницы, включая SEO и информацию Open Graph |
↳ title | string | Заголовок страницы |
↳ description | string | Мета-описание страницы |
↳ language | string | Код языка страницы (например, "en") |
↳ sourceURL | string | Исходный URL, который был скрапирован |
↳ statusCode | number | HTTP-статус код ответа |
↳ keywords | string | Мета-ключевые слова страницы |
↳ robots | string | Директива мета-тега robots (например, "follow, index") |
↳ ogTitle | string | Open Graph заголовок |
↳ ogDescription | string | Open Graph описание |
↳ ogUrl | string | Open Graph URL |
↳ ogImage | string | Open Graph URL изображения |
↳ ogLocaleAlternate | array | Альтернативные версии локалей для Open Graph |
↳ ogSiteName | string | Open Graph название сайта |
↳ error | string | Сообщение об ошибке, если скрапинг не удался |
Искать информацию в интернете с использованием Firecrawl
| Параметр | Тип | Обязательный | Описание |
|---|
query | string | Да | Поисковый запрос для использования |
apiKey | string | Да | API-ключ Firecrawl |
pricing | custom | Нет | Нет описания |
metadata | string | Нет | Нет описания |
rateLimit | string | Нет | Нет описания |
| Параметр | Тип | Описание |
|---|
data | array | Данные результатов поиска со скрапированным контентом и метаданными |
↳ title | string | Заголовок результата поиска из поисковой системы |
↳ description | string | Описание/сниппет результата поиска из поисковой системы |
↳ url | string | URL результата поиска |
↳ markdown | string | Контент страницы в markdown (когда scrapeOptions.formats включает "markdown") |
↳ html | string | Обработанный HTML-контент (когда scrapeOptions.formats включает "html") |
↳ rawHtml | string | Необработанный сырой HTML (когда scrapeOptions.formats включает "rawHtml") |
↳ links | array | Ссылки, найденные на странице (когда scrapeOptions.formats включает "links") |
↳ screenshot | string | URL скриншота (истекает через 24 часа, когда scrapeOptions.formats включает "screenshot") |
↳ metadata | object | Метаданные о странице результата поиска |
↳ title | string | Заголовок страницы |
↳ description | string | Мета-описание страницы |
↳ sourceURL | string | Исходный URL |
↳ statusCode | number | HTTP-статус код |
↳ error | string | Сообщение об ошибке, если скрапинг не удался |
Обходить целые веб-сайты и извлекать структурированный контент со всех доступных страниц
| Параметр | Тип | Обязательный | Описание |
|---|
url | string | Да | URL веб-сайта для обхода (например, "https://example.com" или "https://docs.example.com/guide") |
limit | number | Нет | Максимальное количество страниц для обхода (например, 50, 100, 500). По умолчанию: 100 |
maxDepth | number | Нет | Максимальная глубина обхода от начального URL (например, 1, 2, 3). Контролирует, насколько глубоко следовать по ссылкам |
formats | json | Нет | Форматы вывода для скрапированного контента (например, ["markdown"], ["markdown", "html"], ["markdown", "links"]) |
excludePaths | json | Нет | Пути URL для исключения из обхода (например, ["/blog/", "/admin/", "/*.pdf"]) |
includePaths | json | Нет | Пути URL для включения в обход (например, ["/docs/", "/api/"]). Только эти пути будут обходиться |
onlyMainContent | boolean | Нет | Извлекать только основной контент со страниц |
apiKey | string | Да | API-ключ Firecrawl |
pricing | custom | Нет | Нет описания |
metadata | string | Нет | Нет описания |
rateLimit | string | Нет | Нет описания |
| Параметр | Тип | Описание |
|---|
pages | array | Массив обойденных страниц с их контентом и метаданными |
↳ markdown | string | Контент страницы в формате markdown |
↳ html | string | Обработанный HTML-контент страницы |
↳ rawHtml | string | Необработанный сырой HTML-контент |
↳ links | array | Массив ссылок, найденных на странице |
↳ screenshot | string | URL скриншота (истекает через 24 часа) |
↳ metadata | object | Метаданные страницы из операции обхода |
↳ title | string | Заголовок страницы |
↳ description | string | Мета-описание страницы |
↳ language | string | Код языка страницы |
↳ sourceURL | string | Исходный URL |
↳ statusCode | number | HTTP-статус код |
↳ ogLocaleAlternate | array | Альтернативные версии локалей |
total | number | Общее количество страниц, найденных во время обхода |
Получить полный список URL с любого веб-сайта быстро и надежно. Полезно для обнаружения всех страниц на сайте без их обхода.
| Параметр | Тип | Обязательный | Описание |
|---|
url | string | Да | Базовый URL для картографирования и обнаружения ссылок (например, "https://example.com") |
search | string | Нет | Фильтровать результаты по релевантности поисковому термину (например, "blog") |
sitemap | string | Нет | Контролирует использование карты сайта: "skip", "include" (по умолчанию) или "only" |
includeSubdomains | boolean | Нет | Включать ли URL с поддоменов (по умолчанию: true) |
ignoreQueryParameters | boolean | Нет | Исключать URL, содержащие строки запроса (по умолчанию: true) |
limit | number | Нет | Максимальное количество ссылок для возврата (например, 100, 1000, 5000). Макс: 100,000, по умолчанию: 5,000 |
timeout | number | Нет | Таймаут запроса в миллисекундах |
location | json | Нет | Географический контекст для проксирования (страна, языки) |
apiKey | string | Да | API-ключ Firecrawl |
pricing | custom | Нет | Нет описания |
metadata | string | Нет | Нет описания |
rateLimit | string | Нет | Нет описания |
| Параметр | Тип | Описание |
|---|
success | boolean | Была ли операция картографирования успешной |
links | array | Массив обнаруженных URL с веб-сайта |
Извлекать структурированные данные со целых веб-страниц с использованием естественно-языковых промптов и JSON-схемы. Мощная агентская функция для интеллектуального извлечения данных.
| Параметр | Тип | Обязательный | Описание |
|---|
urls | json | Да | Массив URL для извлечения данных (например, ["https://example.com/page1", "https://example.com/page2"] или ["https://example.com/*"]) |
prompt | string | Нет | Естественно-языковое руководство для процесса извлечения |
schema | json | Нет | JSON-схема, определяющая структуру данных для извлечения |
enableWebSearch | boolean | Нет | Включить веб-поиск для нахождения дополнительной информации (по умолчанию: false) |
ignoreSitemap | boolean | Нет | Игнорировать файлы sitemap.xml во время сканирования (по умолчанию: false) |
includeSubdomains | boolean | Нет | Расширить сканирование на поддомены (по умолчанию: true) |
showSources | boolean | Нет | Возвращать источники данных в ответе (по умолчанию: false) |
ignoreInvalidURLs | boolean | Нет | Пропускать невалидные URL в массиве (по умолчанию: true) |
scrapeOptions | json | Нет | Расширенные опции конфигурации скрапинга |
apiKey | string | Да | API-ключ Firecrawl |
pricing | custom | Нет | Нет описания |
metadata | string | Нет | Нет описания |
rateLimit | string | Нет | Нет описания |
| Параметр | Тип | Описание |
|---|
success | boolean | Была ли операция извлечения успешной |
data | object | Извлеченные структурированные данные согласно схеме или промпту |
Автономный агент извлечения веб-данных. Ищет и собирает информацию на основе естественно-языковых промптов без необходимости указания конкретных URL.
| Параметр | Тип | Обязательный | Описание |
|---|
prompt | string | Да | Естественно-языковое описание данных для извлечения (макс. 10,000 символов) |
urls | json | Нет | Опциональный массив URL для фокусировки агента (например, ["https://example.com", "https://docs.example.com"]) |
schema | json | Нет | JSON-схема, определяющая структуру данных для извлечения |
maxCredits | number | Нет | Максимальное количество кредитов для траты на эту задачу агента |
strictConstrainToURLs | boolean | Нет | Если true, агент будет посещать только URL, указанные в массиве urls |
apiKey | string | Да | API-ключ Firecrawl |
| Параметр | Тип | Описание |
|---|
success | boolean | Была ли операция агента успешной |
status | string | Текущий статус задачи агента (processing, completed, failed) |
data | object | Извлеченные данные от агента |
expiresAt | string | Метка времени, когда результаты истекают (24 часа) |
sources | object | Массив исходных URL, использованных агентом |