Firecrawl

Firecrawl — это мощный API для веб-скрапинга и извлечения контента, который бесшовно интегрируется в AACFlow, позволяя разработчикам извлекать чистый, структурированный контент с любого веб-сайта. Эта интеграция предоставляет простой способ преобразования веб-страниц в удобные форматы данных, такие как Markdown и HTML, с сохранением основного содержимого.

С помощью Firecrawl в AACFlow вы можете:

Извлекать чистый контент: Удалять рекламу, элементы навигации и другие отвлекающие элементы, чтобы получить только основной контент
Преобразовывать в структурированные форматы: Преобразовывать веб-страницы в Markdown, HTML или JSON
Захватывать метаданные: Извлекать SEO-метаданные, Open Graph теги и другую информацию о странице
Обрабатывать сайты с большим количеством JavaScript: Обрабатывать контент из современных веб-приложений, которые полагаются на JavaScript
Фильтровать контент: Фокусироваться на конкретных частях страницы с использованием CSS-селекторов
Обрабатывать в масштабе: Обрабатывать потребности в скрапинге большого объема с надежным API
Искать в интернете: Выполнять интеллектуальный веб-поиск и получать структурированные результаты
Обходить целые сайты: Обходить несколько страниц с веб-сайта и агрегировать их контент

В AACFlow интеграция Firecrawl позволяет вашим агентам получать доступ и обрабатывать веб-контент программно в рамках их рабочих процессов. Поддерживаемые операции включают:

Скрапинг: Извлечение структурированного контента (Markdown, HTML, метаданные) с одной веб-страницы.
Поиск: Поиск информации в интернете с использованием интеллектуальных возможностей поиска Firecrawl.
Обход: Обход нескольких страниц с веб-сайта, возвращая структурированный контент и метаданные для каждой страницы.

Это позволяет вашим агентам собирать информацию с веб-сайтов, извлекать структурированные данные и использовать эту информацию для принятия решений или генерации инсайтов — все без необходимости навигации по сложностям парсинга сырого HTML или автоматизации браузера. Просто настройте блок Firecrawl с вашим API-ключом, выберите операцию (Scrape, Поиск или Crawl) и укажите соответствующие параметры. Ваши агенты могут немедленно начать работать с веб-контентом в чистом, структурированном формате.

Инструкции по использованию

Интегрируйте Firecrawl в рабочий процесс. Скрапите страницы, ищите в интернете, обходите целые сайты, картографируйте структуры URL и извлекайте структурированные данные с помощью AI.

Инструменты

`firecrawl_scrape`

Извлечь структурированный контент с веб-страниц с поддержкой комплексных метаданных. Преобразует контент в markdown или HTML, захватывая SEO-метаданные, Open Graph теги и информацию о странице.

Входные параметры

Параметр	Тип	Обязательный	Описание
`url`	string	Да	URL для скрапинга контента (например, "https://example.com/page")
`scrapeOptions`	json	Нет	Опции для скрапинга контента
`apiKey`	string	Да	API-ключ Firecrawl
`pricing`	custom	Нет	Нет описания
`metadata`	string	Нет	Нет описания
`rateLimit`	string	Нет	Нет описания

Выходные данные

Параметр	Тип	Описание
`markdown`	string	Контент страницы в формате markdown
`html`	string	Сырой HTML-контент страницы
`metadata`	object	Метаданные страницы, включая SEO и информацию Open Graph
↳ `title`	string	Заголовок страницы
↳ `description`	string	Мета-описание страницы
↳ `language`	string	Код языка страницы (например, "en")
↳ `sourceURL`	string	Исходный URL, который был скрапирован
↳ `statusCode`	number	HTTP-статус код ответа
↳ `keywords`	string	Мета-ключевые слова страницы
↳ `robots`	string	Директива мета-тега robots (например, "follow, index")
↳ `ogTitle`	string	Open Graph заголовок
↳ `ogDescription`	string	Open Graph описание
↳ `ogUrl`	string	Open Graph URL
↳ `ogImage`	string	Open Graph URL изображения
↳ `ogLocaleAlternate`	array	Альтернативные версии локалей для Open Graph
↳ `ogSiteName`	string	Open Graph название сайта
↳ `error`	string	Сообщение об ошибке, если скрапинг не удался

`firecrawl_search`

Искать информацию в интернете с использованием Firecrawl

Входные параметры

Параметр	Тип	Обязательный	Описание
`query`	string	Да	Поисковый запрос для использования
`apiKey`	string	Да	API-ключ Firecrawl
`pricing`	custom	Нет	Нет описания
`metadata`	string	Нет	Нет описания
`rateLimit`	string	Нет	Нет описания

Выходные данные

Параметр	Тип	Описание
`data`	array	Данные результатов поиска со скрапированным контентом и метаданными
↳ `title`	string	Заголовок результата поиска из поисковой системы
↳ `description`	string	Описание/сниппет результата поиска из поисковой системы
↳ `url`	string	URL результата поиска
↳ `markdown`	string	Контент страницы в markdown (когда scrapeOptions.formats включает "markdown")
↳ `html`	string	Обработанный HTML-контент (когда scrapeOptions.formats включает "html")
↳ `rawHtml`	string	Необработанный сырой HTML (когда scrapeOptions.formats включает "rawHtml")
↳ `links`	array	Ссылки, найденные на странице (когда scrapeOptions.formats включает "links")
↳ `screenshot`	string	URL скриншота (истекает через 24 часа, когда scrapeOptions.formats включает "screenshot")
↳ `metadata`	object	Метаданные о странице результата поиска
↳ `title`	string	Заголовок страницы
↳ `description`	string	Мета-описание страницы
↳ `sourceURL`	string	Исходный URL
↳ `statusCode`	number	HTTP-статус код
↳ `error`	string	Сообщение об ошибке, если скрапинг не удался

`firecrawl_crawl`

Обходить целые веб-сайты и извлекать структурированный контент со всех доступных страниц

Входные параметры

Параметр	Тип	Обязательный	Описание
`url`	string	Да	URL веб-сайта для обхода (например, "https://example.com" или "https://docs.example.com/guide")
`limit`	number	Нет	Максимальное количество страниц для обхода (например, 50, 100, 500). По умолчанию: 100
`maxDepth`	number	Нет	Максимальная глубина обхода от начального URL (например, 1, 2, 3). Контролирует, насколько глубоко следовать по ссылкам
`formats`	json	Нет	Форматы вывода для скрапированного контента (например, ["markdown"], ["markdown", "html"], ["markdown", "links"])
`excludePaths`	json	Нет	Пути URL для исключения из обхода (например, ["/blog/", "/admin/", "/*.pdf"])
`includePaths`	json	Нет	Пути URL для включения в обход (например, ["/docs/", "/api/"]). Только эти пути будут обходиться
`onlyMainContent`	boolean	Нет	Извлекать только основной контент со страниц
`apiKey`	string	Да	API-ключ Firecrawl
`pricing`	custom	Нет	Нет описания
`metadata`	string	Нет	Нет описания
`rateLimit`	string	Нет	Нет описания

Выходные данные

Параметр	Тип	Описание
`pages`	array	Массив обойденных страниц с их контентом и метаданными
↳ `markdown`	string	Контент страницы в формате markdown
↳ `html`	string	Обработанный HTML-контент страницы
↳ `rawHtml`	string	Необработанный сырой HTML-контент
↳ `links`	array	Массив ссылок, найденных на странице
↳ `screenshot`	string	URL скриншота (истекает через 24 часа)
↳ `metadata`	object	Метаданные страницы из операции обхода
↳ `title`	string	Заголовок страницы
↳ `description`	string	Мета-описание страницы
↳ `language`	string	Код языка страницы
↳ `sourceURL`	string	Исходный URL
↳ `statusCode`	number	HTTP-статус код
↳ `ogLocaleAlternate`	array	Альтернативные версии локалей
`total`	number	Общее количество страниц, найденных во время обхода

`firecrawl_map`

Получить полный список URL с любого веб-сайта быстро и надежно. Полезно для обнаружения всех страниц на сайте без их обхода.

Входные параметры

Параметр	Тип	Обязательный	Описание
`url`	string	Да	Базовый URL для картографирования и обнаружения ссылок (например, "https://example.com")
`search`	string	Нет	Фильтровать результаты по релевантности поисковому термину (например, "blog")
`sitemap`	string	Нет	Контролирует использование карты сайта: "skip", "include" (по умолчанию) или "only"
`includeSubdomains`	boolean	Нет	Включать ли URL с поддоменов (по умолчанию: true)
`ignoreQueryParameters`	boolean	Нет	Исключать URL, содержащие строки запроса (по умолчанию: true)
`limit`	number	Нет	Максимальное количество ссылок для возврата (например, 100, 1000, 5000). Макс: 100,000, по умолчанию: 5,000
`timeout`	number	Нет	Таймаут запроса в миллисекундах
`location`	json	Нет	Географический контекст для проксирования (страна, языки)
`apiKey`	string	Да	API-ключ Firecrawl
`pricing`	custom	Нет	Нет описания
`metadata`	string	Нет	Нет описания
`rateLimit`	string	Нет	Нет описания

Выходные данные

Параметр	Тип	Описание
`success`	boolean	Была ли операция картографирования успешной
`links`	array	Массив обнаруженных URL с веб-сайта

`firecrawl_extract`

Извлекать структурированные данные со целых веб-страниц с использованием естественно-языковых промптов и JSON-схемы. Мощная агентская функция для интеллектуального извлечения данных.

Входные параметры

Параметр	Тип	Обязательный	Описание
`urls`	json	Да	Массив URL для извлечения данных (например, ["https://example.com/page1", "https://example.com/page2"] или ["https://example.com/*"])
`prompt`	string	Нет	Естественно-языковое руководство для процесса извлечения
`schema`	json	Нет	JSON-схема, определяющая структуру данных для извлечения
`enableWebSearch`	boolean	Нет	Включить веб-поиск для нахождения дополнительной информации (по умолчанию: false)
`ignoreSitemap`	boolean	Нет	Игнорировать файлы sitemap.xml во время сканирования (по умолчанию: false)
`includeSubdomains`	boolean	Нет	Расширить сканирование на поддомены (по умолчанию: true)
`showSources`	boolean	Нет	Возвращать источники данных в ответе (по умолчанию: false)
`ignoreInvalidURLs`	boolean	Нет	Пропускать невалидные URL в массиве (по умолчанию: true)
`scrapeOptions`	json	Нет	Расширенные опции конфигурации скрапинга
`apiKey`	string	Да	API-ключ Firecrawl
`pricing`	custom	Нет	Нет описания
`metadata`	string	Нет	Нет описания
`rateLimit`	string	Нет	Нет описания

Выходные данные

Параметр	Тип	Описание
`success`	boolean	Была ли операция извлечения успешной
`data`	object	Извлеченные структурированные данные согласно схеме или промпту

`firecrawl_agent`

Автономный агент извлечения веб-данных. Ищет и собирает информацию на основе естественно-языковых промптов без необходимости указания конкретных URL.

Входные параметры

Параметр	Тип	Обязательный	Описание
`prompt`	string	Да	Естественно-языковое описание данных для извлечения (макс. 10,000 символов)
`urls`	json	Нет	Опциональный массив URL для фокусировки агента (например, ["https://example.com", "https://docs.example.com"])
`schema`	json	Нет	JSON-схема, определяющая структуру данных для извлечения
`maxCredits`	number	Нет	Максимальное количество кредитов для траты на эту задачу агента
`strictConstrainToURLs`	boolean	Нет	Если true, агент будет посещать только URL, указанные в массиве urls
`apiKey`	string	Да	API-ключ Firecrawl

Выходные данные

Параметр	Тип	Описание
`success`	boolean	Была ли операция агента успешной
`status`	string	Текущий статус задачи агента (processing, completed, failed)
`data`	object	Извлеченные данные от агента
`expiresAt`	string	Метка времени, когда результаты истекают (24 часа)
`sources`	object	Массив исходных URL, использованных агентом

Firecrawl

On this page