AACFlow

Firecrawl

Скрапинг, поиск, обход, картографирование и извлечение веб-данных

Firecrawl — это мощный API для веб-скрапинга и извлечения контента, который бесшовно интегрируется в AACFlow, позволяя разработчикам извлекать чистый, структурированный контент с любого веб-сайта. Эта интеграция предоставляет простой способ преобразования веб-страниц в удобные форматы данных, такие как Markdown и HTML, с сохранением основного содержимого.

С помощью Firecrawl в AACFlow вы можете:

  • Извлекать чистый контент: Удалять рекламу, элементы навигации и другие отвлекающие элементы, чтобы получить только основной контент
  • Преобразовывать в структурированные форматы: Преобразовывать веб-страницы в Markdown, HTML или JSON
  • Захватывать метаданные: Извлекать SEO-метаданные, Open Graph теги и другую информацию о странице
  • Обрабатывать сайты с большим количеством JavaScript: Обрабатывать контент из современных веб-приложений, которые полагаются на JavaScript
  • Фильтровать контент: Фокусироваться на конкретных частях страницы с использованием CSS-селекторов
  • Обрабатывать в масштабе: Обрабатывать потребности в скрапинге большого объема с надежным API
  • Искать в интернете: Выполнять интеллектуальный веб-поиск и получать структурированные результаты
  • Обходить целые сайты: Обходить несколько страниц с веб-сайта и агрегировать их контент

В AACFlow интеграция Firecrawl позволяет вашим агентам получать доступ и обрабатывать веб-контент программно в рамках их рабочих процессов. Поддерживаемые операции включают:

  • Скрапинг: Извлечение структурированного контента (Markdown, HTML, метаданные) с одной веб-страницы.
  • Поиск: Поиск информации в интернете с использованием интеллектуальных возможностей поиска Firecrawl.
  • Обход: Обход нескольких страниц с веб-сайта, возвращая структурированный контент и метаданные для каждой страницы.

Это позволяет вашим агентам собирать информацию с веб-сайтов, извлекать структурированные данные и использовать эту информацию для принятия решений или генерации инсайтов — все без необходимости навигации по сложностям парсинга сырого HTML или автоматизации браузера. Просто настройте блок Firecrawl с вашим API-ключом, выберите операцию (Scrape, Поиск или Crawl) и укажите соответствующие параметры. Ваши агенты могут немедленно начать работать с веб-контентом в чистом, структурированном формате.

Инструкции по использованию

Интегрируйте Firecrawl в рабочий процесс. Скрапите страницы, ищите в интернете, обходите целые сайты, картографируйте структуры URL и извлекайте структурированные данные с помощью AI.

Инструменты

firecrawl_scrape

Извлечь структурированный контент с веб-страниц с поддержкой комплексных метаданных. Преобразует контент в markdown или HTML, захватывая SEO-метаданные, Open Graph теги и информацию о странице.

Входные параметры

ПараметрТипОбязательныйОписание
urlstringДаURL для скрапинга контента (например, "https://example.com/page")
scrapeOptionsjsonНетОпции для скрапинга контента
apiKeystringДаAPI-ключ Firecrawl
pricingcustomНетНет описания
metadatastringНетНет описания
rateLimitstringНетНет описания

Выходные данные

ПараметрТипОписание
markdownstringКонтент страницы в формате markdown
htmlstringСырой HTML-контент страницы
metadataobjectМетаданные страницы, включая SEO и информацию Open Graph
titlestringЗаголовок страницы
descriptionstringМета-описание страницы
languagestringКод языка страницы (например, "en")
sourceURLstringИсходный URL, который был скрапирован
statusCodenumberHTTP-статус код ответа
keywordsstringМета-ключевые слова страницы
robotsstringДиректива мета-тега robots (например, "follow, index")
ogTitlestringOpen Graph заголовок
ogDescriptionstringOpen Graph описание
ogUrlstringOpen Graph URL
ogImagestringOpen Graph URL изображения
ogLocaleAlternatearrayАльтернативные версии локалей для Open Graph
ogSiteNamestringOpen Graph название сайта
errorstringСообщение об ошибке, если скрапинг не удался

Искать информацию в интернете с использованием Firecrawl

Входные параметры

ПараметрТипОбязательныйОписание
querystringДаПоисковый запрос для использования
apiKeystringДаAPI-ключ Firecrawl
pricingcustomНетНет описания
metadatastringНетНет описания
rateLimitstringНетНет описания

Выходные данные

ПараметрТипОписание
dataarrayДанные результатов поиска со скрапированным контентом и метаданными
titlestringЗаголовок результата поиска из поисковой системы
descriptionstringОписание/сниппет результата поиска из поисковой системы
urlstringURL результата поиска
markdownstringКонтент страницы в markdown (когда scrapeOptions.formats включает "markdown")
htmlstringОбработанный HTML-контент (когда scrapeOptions.formats включает "html")
rawHtmlstringНеобработанный сырой HTML (когда scrapeOptions.formats включает "rawHtml")
linksarrayСсылки, найденные на странице (когда scrapeOptions.formats включает "links")
screenshotstringURL скриншота (истекает через 24 часа, когда scrapeOptions.formats включает "screenshot")
metadataobjectМетаданные о странице результата поиска
titlestringЗаголовок страницы
descriptionstringМета-описание страницы
sourceURLstringИсходный URL
statusCodenumberHTTP-статус код
errorstringСообщение об ошибке, если скрапинг не удался

firecrawl_crawl

Обходить целые веб-сайты и извлекать структурированный контент со всех доступных страниц

Входные параметры

ПараметрТипОбязательныйОписание
urlstringДаURL веб-сайта для обхода (например, "https://example.com" или "https://docs.example.com/guide")
limitnumberНетМаксимальное количество страниц для обхода (например, 50, 100, 500). По умолчанию: 100
maxDepthnumberНетМаксимальная глубина обхода от начального URL (например, 1, 2, 3). Контролирует, насколько глубоко следовать по ссылкам
formatsjsonНетФорматы вывода для скрапированного контента (например, ["markdown"], ["markdown", "html"], ["markdown", "links"])
excludePathsjsonНетПути URL для исключения из обхода (например, ["/blog/", "/admin/", "/*.pdf"])
includePathsjsonНетПути URL для включения в обход (например, ["/docs/", "/api/"]). Только эти пути будут обходиться
onlyMainContentbooleanНетИзвлекать только основной контент со страниц
apiKeystringДаAPI-ключ Firecrawl
pricingcustomНетНет описания
metadatastringНетНет описания
rateLimitstringНетНет описания

Выходные данные

ПараметрТипОписание
pagesarrayМассив обойденных страниц с их контентом и метаданными
markdownstringКонтент страницы в формате markdown
htmlstringОбработанный HTML-контент страницы
rawHtmlstringНеобработанный сырой HTML-контент
linksarrayМассив ссылок, найденных на странице
screenshotstringURL скриншота (истекает через 24 часа)
metadataobjectМетаданные страницы из операции обхода
titlestringЗаголовок страницы
descriptionstringМета-описание страницы
languagestringКод языка страницы
sourceURLstringИсходный URL
statusCodenumberHTTP-статус код
ogLocaleAlternatearrayАльтернативные версии локалей
totalnumberОбщее количество страниц, найденных во время обхода

firecrawl_map

Получить полный список URL с любого веб-сайта быстро и надежно. Полезно для обнаружения всех страниц на сайте без их обхода.

Входные параметры

ПараметрТипОбязательныйОписание
urlstringДаБазовый URL для картографирования и обнаружения ссылок (например, "https://example.com")
searchstringНетФильтровать результаты по релевантности поисковому термину (например, "blog")
sitemapstringНетКонтролирует использование карты сайта: "skip", "include" (по умолчанию) или "only"
includeSubdomainsbooleanНетВключать ли URL с поддоменов (по умолчанию: true)
ignoreQueryParametersbooleanНетИсключать URL, содержащие строки запроса (по умолчанию: true)
limitnumberНетМаксимальное количество ссылок для возврата (например, 100, 1000, 5000). Макс: 100,000, по умолчанию: 5,000
timeoutnumberНетТаймаут запроса в миллисекундах
locationjsonНетГеографический контекст для проксирования (страна, языки)
apiKeystringДаAPI-ключ Firecrawl
pricingcustomНетНет описания
metadatastringНетНет описания
rateLimitstringНетНет описания

Выходные данные

ПараметрТипОписание
successbooleanБыла ли операция картографирования успешной
linksarrayМассив обнаруженных URL с веб-сайта

firecrawl_extract

Извлекать структурированные данные со целых веб-страниц с использованием естественно-языковых промптов и JSON-схемы. Мощная агентская функция для интеллектуального извлечения данных.

Входные параметры

ПараметрТипОбязательныйОписание
urlsjsonДаМассив URL для извлечения данных (например, ["https://example.com/page1", "https://example.com/page2"] или ["https://example.com/*"])
promptstringНетЕстественно-языковое руководство для процесса извлечения
schemajsonНетJSON-схема, определяющая структуру данных для извлечения
enableWebSearchbooleanНетВключить веб-поиск для нахождения дополнительной информации (по умолчанию: false)
ignoreSitemapbooleanНетИгнорировать файлы sitemap.xml во время сканирования (по умолчанию: false)
includeSubdomainsbooleanНетРасширить сканирование на поддомены (по умолчанию: true)
showSourcesbooleanНетВозвращать источники данных в ответе (по умолчанию: false)
ignoreInvalidURLsbooleanНетПропускать невалидные URL в массиве (по умолчанию: true)
scrapeOptionsjsonНетРасширенные опции конфигурации скрапинга
apiKeystringДаAPI-ключ Firecrawl
pricingcustomНетНет описания
metadatastringНетНет описания
rateLimitstringНетНет описания

Выходные данные

ПараметрТипОписание
successbooleanБыла ли операция извлечения успешной
dataobjectИзвлеченные структурированные данные согласно схеме или промпту

firecrawl_agent

Автономный агент извлечения веб-данных. Ищет и собирает информацию на основе естественно-языковых промптов без необходимости указания конкретных URL.

Входные параметры

ПараметрТипОбязательныйОписание
promptstringДаЕстественно-языковое описание данных для извлечения (макс. 10,000 символов)
urlsjsonНетОпциональный массив URL для фокусировки агента (например, ["https://example.com", "https://docs.example.com"])
schemajsonНетJSON-схема, определяющая структуру данных для извлечения
maxCreditsnumberНетМаксимальное количество кредитов для траты на эту задачу агента
strictConstrainToURLsbooleanНетЕсли true, агент будет посещать только URL, указанные в массиве urls
apiKeystringДаAPI-ключ Firecrawl

Выходные данные

ПараметрТипОписание
successbooleanБыла ли операция агента успешной
statusstringТекущий статус задачи агента (processing, completed, failed)
dataobjectИзвлеченные данные от агента
expiresAtstringМетка времени, когда результаты истекают (24 часа)
sourcesobjectМассив исходных URL, использованных агентом

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать