Jina AI — это мощный инструмент извлечения контента, который бесшовно интегрируется с AACFlow для преобразования веб-контента в чистый, читаемый текст. Эта интеграция позволяет разработчикам легко внедрять возможности обработки веб-контента в свои агентские рабочие процессы.
Jina AI Reader специализируется на извлечении наиболее релевантного контента с веб-страниц, удаляя беспорядок, рекламу и проблемы с форматированием для получения чистого, структурированного текста, оптимизированного для языковых моделей и других задач обработки текста.
С интеграцией Jina AI в AACFlow вы можете:
- Извлекать чистый контент с любой веб-страницы, просто предоставив URL
- Обрабатывать сложные веб-макеты в структурированный, читаемый текст
- Сохранять важный контекст, удаляя ненужные элементы
- Подготавливать веб-контент для дальнейшей обработки в ваших рабочих процессах агентов
- Оптимизировать исследовательские задачи, быстро преобразуя веб-информацию в полезные данные
Эта интеграция особенно ценна для создания агентов, которым необходимо собирать и обрабатывать информацию из интернета, проводить исследования или анализировать онлайн-контент в рамках своего рабочего процесса.
Инструкции по использованию
Интегрируйте Jina AI в рабочий процесс. Ищите в интернете и получайте результаты, удобные для LLM, или извлекайте чистый контент из конкретных URL с расширенными параметрами парсинга.
Инструменты
jina_read_url
Извлечение и обработка веб-контента в чистый, удобный для LLM текст с использованием Jina AI Reader. Поддерживает расширенный парсинг контента, сбор ссылок и несколько форматов вывода с настраиваемыми параметрами обработки.
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
url | string | Да | URL для чтения и преобразования в markdown (например, "https://example.com/page") |
useReaderLMv2 | boolean | Нет | Использовать ли ReaderLM-v2 для лучшего качества (в 3 раза дороже по токенам) |
gatherLinks | boolean | Нет | Собирать ли все ссылки в конце |
jsonResponse | boolean | Нет | Возвращать ли ответ в формате JSON |
apiKey | string | Да | Ваш ключ API Jina AI |
withImagesummary | boolean | Нет | Собирать все изображения со страницы с метаданными |
retainImages | string | Нет | Управление включением изображений: "none" удаляет все, "all" сохраняет все |
returnFormat | string | Нет | Формат вывода: markdown, html, text, screenshot или pageshot |
withIframe | boolean | Нет | Включать содержимое iframe в извлечение |
withShadowDom | boolean | Нет | Извлекать содержимое Shadow DOM |
noCache | boolean | Нет | Обходить кэшированный контент для получения в реальном времени |
withGeneratedAlt | boolean | Нет | Генерировать альтернативный текст для изображений с использованием VLM |
robotsTxt | string | Нет | User-Agent бота для проверки robots.txt |
dnt | boolean | Нет | Do Not Track — предотвращает кэширование/отслеживание |
noGfm | boolean | Нет | Отключить GitHub Flavored Markdown |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
content | string | Извлеченный контент из URL, обработанный в чистый, удобный для LLM текст |
tokensUsed | number | Количество токенов Jina, использованных этим запросом |
jina_search
Поиск в интернете и возврат топ-5 результатов с контентом, удобным для LLM. Каждый результат автоматически обрабатывается через Jina Reader API. Поддерживает географическую фильтрацию, ограничения по сайтам и пагинацию.
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
q | string | Да | Строка поискового запроса (например, "машинное обучение учебники") |
apiKey | string | Да | Ваш ключ API Jina AI |
num | number | Нет | Максимальное количество результатов на странице (по умолчанию: 5) |
site | string | Нет | Ограничить результаты определенным доменом(ами). Может быть разделено запятыми для нескольких сайтов (например, "jina.ai,github.com") |
withFavicon | boolean | Нет | Включать фавиконы сайтов в результаты |
withImagesummary | boolean | Нет | Собирать все изображения со страниц результатов с метаданными |
withLinksummary | boolean | Нет | Собирать все ссылки со страниц результатов |
retainImages | string | Нет | Управление включением изображений: "none" удаляет все, "all" сохраняет все |
noCache | boolean | Нет | Обходить кэшированный контент для получения в реальном времени |
withGeneratedAlt | boolean | Нет | Генерировать альтернативный текст для изображений с использованием VLM |
respondWith | string | Нет | Установить "no-content" для получения только метаданных без содержимого страницы |
returnFormat | string | Нет | Формат вывода: markdown, html, text, screenshot или pageshot |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
results | array | Массив результатов поиска, каждый содержит заголовок, описание, URL и контент, удобный для LLM |
↳ title | string | Заголовок страницы |
↳ description | string | Описание страницы или мета-описание |
↳ url | string | URL страницы |
↳ content | string | Извлеченный контент, удобный для LLM |
↳ usage | object | Информация об использовании токенов |
↳ tokens | number | Количество токенов, использованных этим запросом |
tokensUsed | number | Количество токенов Jina, использованных этим запросом |

