AACFlow

Jina

Поиск в интернете или извлечение контента из URL

Jina AI — это мощный инструмент извлечения контента, который бесшовно интегрируется с AACFlow для преобразования веб-контента в чистый, читаемый текст. Эта интеграция позволяет разработчикам легко внедрять возможности обработки веб-контента в свои агентские рабочие процессы.

Jina AI Reader специализируется на извлечении наиболее релевантного контента с веб-страниц, удаляя беспорядок, рекламу и проблемы с форматированием для получения чистого, структурированного текста, оптимизированного для языковых моделей и других задач обработки текста.

С интеграцией Jina AI в AACFlow вы можете:

  • Извлекать чистый контент с любой веб-страницы, просто предоставив URL
  • Обрабатывать сложные веб-макеты в структурированный, читаемый текст
  • Сохранять важный контекст, удаляя ненужные элементы
  • Подготавливать веб-контент для дальнейшей обработки в ваших рабочих процессах агентов
  • Оптимизировать исследовательские задачи, быстро преобразуя веб-информацию в полезные данные

Эта интеграция особенно ценна для создания агентов, которым необходимо собирать и обрабатывать информацию из интернета, проводить исследования или анализировать онлайн-контент в рамках своего рабочего процесса.

Инструкции по использованию

Интегрируйте Jina AI в рабочий процесс. Ищите в интернете и получайте результаты, удобные для LLM, или извлекайте чистый контент из конкретных URL с расширенными параметрами парсинга.

Инструменты

jina_read_url

Извлечение и обработка веб-контента в чистый, удобный для LLM текст с использованием Jina AI Reader. Поддерживает расширенный парсинг контента, сбор ссылок и несколько форматов вывода с настраиваемыми параметрами обработки.

Входные параметры

ПараметрТипОбязательныйОписание
urlstringДаURL для чтения и преобразования в markdown (например, "https://example.com/page")
useReaderLMv2booleanНетИспользовать ли ReaderLM-v2 для лучшего качества (в 3 раза дороже по токенам)
gatherLinksbooleanНетСобирать ли все ссылки в конце
jsonResponsebooleanНетВозвращать ли ответ в формате JSON
apiKeystringДаВаш ключ API Jina AI
withImagesummarybooleanНетСобирать все изображения со страницы с метаданными
retainImagesstringНетУправление включением изображений: "none" удаляет все, "all" сохраняет все
returnFormatstringНетФормат вывода: markdown, html, text, screenshot или pageshot
withIframebooleanНетВключать содержимое iframe в извлечение
withShadowDombooleanНетИзвлекать содержимое Shadow DOM
noCachebooleanНетОбходить кэшированный контент для получения в реальном времени
withGeneratedAltbooleanНетГенерировать альтернативный текст для изображений с использованием VLM
robotsTxtstringНетUser-Agent бота для проверки robots.txt
dntbooleanНетDo Not Track — предотвращает кэширование/отслеживание
noGfmbooleanНетОтключить GitHub Flavored Markdown

Выходные данные

ПараметрТипОписание
contentstringИзвлеченный контент из URL, обработанный в чистый, удобный для LLM текст
tokensUsednumberКоличество токенов Jina, использованных этим запросом

Поиск в интернете и возврат топ-5 результатов с контентом, удобным для LLM. Каждый результат автоматически обрабатывается через Jina Reader API. Поддерживает географическую фильтрацию, ограничения по сайтам и пагинацию.

Входные параметры

ПараметрТипОбязательныйОписание
qstringДаСтрока поискового запроса (например, "машинное обучение учебники")
apiKeystringДаВаш ключ API Jina AI
numnumberНетМаксимальное количество результатов на странице (по умолчанию: 5)
sitestringНетОграничить результаты определенным доменом(ами). Может быть разделено запятыми для нескольких сайтов (например, "jina.ai,github.com")
withFaviconbooleanНетВключать фавиконы сайтов в результаты
withImagesummarybooleanНетСобирать все изображения со страниц результатов с метаданными
withLinksummarybooleanНетСобирать все ссылки со страниц результатов
retainImagesstringНетУправление включением изображений: "none" удаляет все, "all" сохраняет все
noCachebooleanНетОбходить кэшированный контент для получения в реальном времени
withGeneratedAltbooleanНетГенерировать альтернативный текст для изображений с использованием VLM
respondWithstringНетУстановить "no-content" для получения только метаданных без содержимого страницы
returnFormatstringНетФормат вывода: markdown, html, text, screenshot или pageshot

Выходные данные

ПараметрТипОписание
resultsarrayМассив результатов поиска, каждый содержит заголовок, описание, URL и контент, удобный для LLM
titlestringЗаголовок страницы
descriptionstringОписание страницы или мета-описание
urlstringURL страницы
contentstringИзвлеченный контент, удобный для LLM
usageobjectИнформация об использовании токенов
tokensnumberКоличество токенов, использованных этим запросом
tokensUsednumberКоличество токенов Jina, использованных этим запросом

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать