Инструмент Mistral Parse предоставляет мощный способ извлечения и обработки содержимого из PDF-документов с использованием OCR API Mistral. Этот инструмент использует передовое оптическое распознавание символов для точного извлечения текста и структуры из PDF-файлов, что упрощает включение данных документов в рабочие процессы ваших агентов.
С помощью инструмента Mistral Parse вы можете:
- Извлекать текст из PDF: Точно преобразовывать содержимое PDF в текстовый, markdown или JSON форматы
- Обрабатывать PDF из URL: Непосредственно извлекать содержимое из PDF, размещенных в интернете, предоставляя их URL
- Сохранять структуру документа: Сохранять форматирование, таблицы и макет из оригинальных PDF
- Извлекать изображения: Опционально включать встроенные изображения из PDF
- Выбирать конкретные страницы: Обрабатывать только нужные страницы из многостраничных документов
Инструмент Mistral Parse особенно полезен в сценариях, когда вашим агентам необходимо работать с содержимым PDF, например, анализировать отчеты, извлекать данные из форм или обрабатывать текст из отсканированных документов. Он упрощает процесс предоставления содержимого PDF вашим агентам, позволяя им работать с информацией, хранящейся в PDF, так же легко, как и с прямым текстовым вводом.
Инструкции по использованию
Интегрируйте Mistral Parse в рабочий процесс. Может извлекать текст из загруженных PDF-документов или из URL.
Инструменты
mistral_parser
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
filePath | string | Нет | URL PDF-документа для обработки |
file | file | Нет | Файл документа для обработки |
fileUpload | object | Нет | Данные загрузки файла из компонента file-upload |
resultType | string | Нет | Тип распарсенного результата (markdown, text или json). По умолчанию: markdown. |
includeImageBase64 | boolean | Нет | Включать изображения в кодировке base64 в ответе |
pages | array | Нет | Конкретные страницы для обработки (массив номеров страниц, начиная с 0) |
imageLimit | number | Нет | Максимальное количество изображений для извлечения из PDF |
imageMinSize | number | Нет | Минимальная высота и ширина изображений для извлечения из PDF |
apiKey | string | Да | Ключ API Mistral (MISTRAL_API_KEY) |
Выходные данные
| Параметр | Тип | Описание |
|---|---|---|
pages | array | Массив объектов страниц из Mistral OCR |
model | string | Идентификатор модели Mistral OCR |
usage_info | json | Статистика использования API |
document_annotation | string | Структурированные данные аннотации документа |

