Jina

Jina AI — это мощный инструмент извлечения контента, который бесшовно интегрируется с AACFlow для преобразования веб-контента в чистый, читаемый текст. Эта интеграция позволяет разработчикам легко внедрять возможности обработки веб-контента в свои агентские рабочие процессы.

Jina AI Reader специализируется на извлечении наиболее релевантного контента с веб-страниц, удаляя беспорядок, рекламу и проблемы с форматированием для получения чистого, структурированного текста, оптимизированного для языковых моделей и других задач обработки текста.

С интеграцией Jina AI в AACFlow вы можете:

Извлекать чистый контент с любой веб-страницы, просто предоставив URL
Обрабатывать сложные веб-макеты в структурированный, читаемый текст
Сохранять важный контекст, удаляя ненужные элементы
Подготавливать веб-контент для дальнейшей обработки в ваших рабочих процессах агентов
Оптимизировать исследовательские задачи, быстро преобразуя веб-информацию в полезные данные

Эта интеграция особенно ценна для создания агентов, которым необходимо собирать и обрабатывать информацию из интернета, проводить исследования или анализировать онлайн-контент в рамках своего рабочего процесса.

Инструкции по использованию

Интегрируйте Jina AI в рабочий процесс. Ищите в интернете и получайте результаты, удобные для LLM, или извлекайте чистый контент из конкретных URL с расширенными параметрами парсинга.

Инструменты

`jina_read_url`

Извлечение и обработка веб-контента в чистый, удобный для LLM текст с использованием Jina AI Reader. Поддерживает расширенный парсинг контента, сбор ссылок и несколько форматов вывода с настраиваемыми параметрами обработки.

Входные параметры

Параметр	Тип	Обязательный	Описание
`url`	string	Да	URL для чтения и преобразования в markdown (например, "https://example.com/page")
`useReaderLMv2`	boolean	Нет	Использовать ли ReaderLM-v2 для лучшего качества (в 3 раза дороже по токенам)
`gatherLinks`	boolean	Нет	Собирать ли все ссылки в конце
`jsonResponse`	boolean	Нет	Возвращать ли ответ в формате JSON
`apiKey`	string	Да	Ваш ключ API Jina AI
`withImagesummary`	boolean	Нет	Собирать все изображения со страницы с метаданными
`retainImages`	string	Нет	Управление включением изображений: "none" удаляет все, "all" сохраняет все
`returnFormat`	string	Нет	Формат вывода: markdown, html, text, screenshot или pageshot
`withIframe`	boolean	Нет	Включать содержимое iframe в извлечение
`withShadowDom`	boolean	Нет	Извлекать содержимое Shadow DOM
`noCache`	boolean	Нет	Обходить кэшированный контент для получения в реальном времени
`withGeneratedAlt`	boolean	Нет	Генерировать альтернативный текст для изображений с использованием VLM
`robotsTxt`	string	Нет	User-Agent бота для проверки robots.txt
`dnt`	boolean	Нет	Do Not Track — предотвращает кэширование/отслеживание
`noGfm`	boolean	Нет	Отключить GitHub Flavored Markdown

Выходные данные

Параметр	Тип	Описание
`content`	string	Извлеченный контент из URL, обработанный в чистый, удобный для LLM текст
`tokensUsed`	number	Количество токенов Jina, использованных этим запросом

`jina_search`

Поиск в интернете и возврат топ-5 результатов с контентом, удобным для LLM. Каждый результат автоматически обрабатывается через Jina Reader API. Поддерживает географическую фильтрацию, ограничения по сайтам и пагинацию.

Входные параметры

Параметр	Тип	Обязательный	Описание
`q`	string	Да	Строка поискового запроса (например, "машинное обучение учебники")
`apiKey`	string	Да	Ваш ключ API Jina AI
`num`	number	Нет	Максимальное количество результатов на странице (по умолчанию: 5)
`site`	string	Нет	Ограничить результаты определенным доменом(ами). Может быть разделено запятыми для нескольких сайтов (например, "jina.ai,github.com")
`withFavicon`	boolean	Нет	Включать фавиконы сайтов в результаты
`withImagesummary`	boolean	Нет	Собирать все изображения со страниц результатов с метаданными
`withLinksummary`	boolean	Нет	Собирать все ссылки со страниц результатов
`retainImages`	string	Нет	Управление включением изображений: "none" удаляет все, "all" сохраняет все
`noCache`	boolean	Нет	Обходить кэшированный контент для получения в реальном времени
`withGeneratedAlt`	boolean	Нет	Генерировать альтернативный текст для изображений с использованием VLM
`respondWith`	string	Нет	Установить "no-content" для получения только метаданных без содержимого страницы
`returnFormat`	string	Нет	Формат вывода: markdown, html, text, screenshot или pageshot

Выходные данные

Параметр	Тип	Описание
`results`	array	Массив результатов поиска, каждый содержит заголовок, описание, URL и контент, удобный для LLM
↳ `title`	string	Заголовок страницы
↳ `description`	string	Описание страницы или мета-описание
↳ `url`	string	URL страницы
↳ `content`	string	Извлеченный контент, удобный для LLM
↳ `usage`	object	Информация об использовании токенов
↳ `tokens`	number	Количество токенов, использованных этим запросом
`tokensUsed`	number	Количество токенов Jina, использованных этим запросом

On this page