AACFlow

Mistral Parser

Извлечение текста из PDF-документов

Инструмент Mistral Parse предоставляет мощный способ извлечения и обработки содержимого из PDF-документов с использованием OCR API Mistral. Этот инструмент использует передовое оптическое распознавание символов для точного извлечения текста и структуры из PDF-файлов, что упрощает включение данных документов в рабочие процессы ваших агентов.

С помощью инструмента Mistral Parse вы можете:

  • Извлекать текст из PDF: Точно преобразовывать содержимое PDF в текстовый, markdown или JSON форматы
  • Обрабатывать PDF из URL: Непосредственно извлекать содержимое из PDF, размещенных в интернете, предоставляя их URL
  • Сохранять структуру документа: Сохранять форматирование, таблицы и макет из оригинальных PDF
  • Извлекать изображения: Опционально включать встроенные изображения из PDF
  • Выбирать конкретные страницы: Обрабатывать только нужные страницы из многостраничных документов

Инструмент Mistral Parse особенно полезен в сценариях, когда вашим агентам необходимо работать с содержимым PDF, например, анализировать отчеты, извлекать данные из форм или обрабатывать текст из отсканированных документов. Он упрощает процесс предоставления содержимого PDF вашим агентам, позволяя им работать с информацией, хранящейся в PDF, так же легко, как и с прямым текстовым вводом.

Инструкции по использованию

Интегрируйте Mistral Parse в рабочий процесс. Может извлекать текст из загруженных PDF-документов или из URL.

Инструменты

mistral_parser

Входные параметры

ПараметрТипОбязательныйОписание
filePathstringНетURL PDF-документа для обработки
filefileНетФайл документа для обработки
fileUploadobjectНетДанные загрузки файла из компонента file-upload
resultTypestringНетТип распарсенного результата (markdown, text или json). По умолчанию: markdown.
includeImageBase64booleanНетВключать изображения в кодировке base64 в ответе
pagesarrayНетКонкретные страницы для обработки (массив номеров страниц, начиная с 0)
imageLimitnumberНетМаксимальное количество изображений для извлечения из PDF
imageMinSizenumberНетМинимальная высота и ширина изображений для извлечения из PDF
apiKeystringДаКлюч API Mistral (MISTRAL_API_KEY)

Выходные данные

ПараметрТипОписание
pagesarrayМассив объектов страниц из Mistral OCR
modelstringИдентификатор модели Mistral OCR
usage_infojsonСтатистика использования API
document_annotationstringСтруктурированные данные аннотации документа

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать