Mistral Parser

Инструмент Mistral Parse предоставляет мощный способ извлечения и обработки содержимого из PDF-документов с использованием OCR API Mistral. Этот инструмент использует передовое оптическое распознавание символов для точного извлечения текста и структуры из PDF-файлов, что упрощает включение данных документов в рабочие процессы ваших агентов.

С помощью инструмента Mistral Parse вы можете:

Извлекать текст из PDF: Точно преобразовывать содержимое PDF в текстовый, markdown или JSON форматы
Обрабатывать PDF из URL: Непосредственно извлекать содержимое из PDF, размещенных в интернете, предоставляя их URL
Сохранять структуру документа: Сохранять форматирование, таблицы и макет из оригинальных PDF
Извлекать изображения: Опционально включать встроенные изображения из PDF
Выбирать конкретные страницы: Обрабатывать только нужные страницы из многостраничных документов

Инструмент Mistral Parse особенно полезен в сценариях, когда вашим агентам необходимо работать с содержимым PDF, например, анализировать отчеты, извлекать данные из форм или обрабатывать текст из отсканированных документов. Он упрощает процесс предоставления содержимого PDF вашим агентам, позволяя им работать с информацией, хранящейся в PDF, так же легко, как и с прямым текстовым вводом.

Параметр	Тип	Обязательный	Описание
`filePath`	string	Нет	URL PDF-документа для обработки
`file`	file	Нет	Файл документа для обработки
`fileUpload`	object	Нет	Данные загрузки файла из компонента file-upload
`resultType`	string	Нет	Тип распарсенного результата (markdown, text или json). По умолчанию: markdown.
`includeImageBase64`	boolean	Нет	Включать изображения в кодировке base64 в ответе
`pages`	array	Нет	Конкретные страницы для обработки (массив номеров страниц, начиная с 0)
`imageLimit`	number	Нет	Максимальное количество изображений для извлечения из PDF
`imageMinSize`	number	Нет	Минимальная высота и ширина изображений для извлечения из PDF
`apiKey`	string	Да	Ключ API Mistral (MISTRAL_API_KEY)

Выходные данные

Параметр	Тип	Описание
`pages`	array	Массив объектов страниц из Mistral OCR
`model`	string	Идентификатор модели Mistral OCR
`usage_info`	json	Статистика использования API
`document_annotation`	string	Структурированные данные аннотации документа

Mistral Parser

Инструкции по использованию

Инструменты

`mistral_parser`

Входные параметры

Выходные данные

On this page