Инструмент Reducto обеспечивает быстрое и точное извлечение текста и данных из PDF-документов с помощью OCR (оптического распознавания символов). Reducto разработан для рабочих процессов агентов, что упрощает обработку загруженных или связанных PDF-файлов и преобразование их содержимого в готовую к использованию информацию.
С инструментом Reducto вы можете:
- Извлекать текст и таблицы из PDF: Быстро преобразовывать отсканированные или цифровые PDF-файлы в текст, markdown или структурированный JSON.
- Обрабатывать PDF из загрузок или URL: Обрабатывать документы либо путем загрузки PDF, либо указания прямого URL.
- Настраивать формат вывода: Выбирать предпочтительный формат вывода — markdown, обычный текст или JSON — и указывать форматы таблиц как markdown или HTML.
- Выбирать определенные страницы: При необходимости извлекать содержимое с конкретных страниц для оптимизации обработки и фокусировки на важном.
- Получать подробные метаданные обработки: Наряду с извлеченным содержимым получать детали задания, время обработки, информацию об исходном файле, количество страниц и статистику использования OCR для аудита и автоматизации.
Автоматизируете ли вы шаги рабочего процесса, извлекаете ли критически важную для бизнеса информацию или открываете архивные документы для поиска и анализа, OCR-парсер Reducto предоставляет вам структурированные, полезные для действий данные даже из самых сложных PDF-файлов.
Ищете надежный и масштабируемый парсинг PDF? Reducto оптимизирован для использования разработчиками и агентами — обеспечивая точность, скорость и гибкость для современного понимания документов.
Инструкции по использованию
Интегрируйте Reducto Parse в рабочий процесс. Может извлекать текст из загруженных PDF-документов или ссылок на файлы.
Инструменты
reducto_parser
Входные данные
| Параметр | Тип | Обязательно | Описание |
|---|---|---|---|
filePath | строка | Нет | URL PDF-документа для обработки |
file | файл | Нет | Файл документа для обработки |
fileUpload | объект | Нет | Данные загрузки файла из компонента file-upload |
pages | массив | Нет | Конкретные страницы для обработки (номера страниц, начиная с 1) |
tableOutputFormat | строка | Нет | Формат вывода таблиц (html или markdown). По умолчанию markdown. |
apiKey | строка | Да | API-ключ Reducto (REDUCTO_API_KEY) |
Выходные данные
Этот инструмент не производит никаких выходных данных.

