Инструмент Pulse обеспечивает беспрепятственное извлечение текста и структурированного контента из широкого спектра документов — включая PDF-файлы, изображения и файлы Office — с использованием передовых технологий OCR (оптического распознавания символов) от Pulse. Разработанный для автоматизированных агентских рабочих процессов, Pulse Parser позволяет легко извлекать ценную информацию из неструктурированных документов и интегрировать извлеченный контент непосредственно в ваш рабочий процесс.
С помощью Pulse вы можете:
- Извлекать текст из документов: Быстро преобразовывать отсканированные PDF-файлы, изображения и документы Office в удобный текст, markdown или JSON.
- Обрабатывать документы по URL или загрузке: Просто предоставьте URL файла или используйте загрузку для извлечения текста из локальных документов или удаленных ресурсов.
- Гибкие форматы вывода: Выбирайте между markdown, обычным текстом или JSON-представлениями извлеченного контента для последующей обработки.
- Выборочная обработка страниц: Указывайте диапазон страниц для обработки, сокращая время обработки и затраты, когда вам нужна только часть документа.
- Извлечение рисунков и таблиц: При необходимости извлекайте рисунки и таблицы с автоматической генерацией подписей и описаний для заполнения контекста.
- Получать аналитику обработки: Получайте подробные метаданные о каждой задаче, включая тип файла, количество страниц, время обработки и многое другое.
- Готовые к интеграции ответы: Включайте извлеченный контент в исследования, автоматизацию рабочих процессов или конвейеры анализа данных.
Идеально подходит для автоматизации утомительного просмотра документов, включения суммирования контента, исследований и многого другого, Pulse Parser переносит реальные документы в эпоху цифровых рабочих процессов.
Если вам нужны точные, масштабируемые и удобные для разработчиков возможности парсинга документов — для различных форматов, языков и макетов — Pulse позволяет вашим агентам читать мир.
Инструкции по использованию
Интегрируйте Pulse в рабочий процесс. Извлекайте текст из PDF-документов, изображений и файлов Office через загрузку или ссылки на файлы.
Инструменты
pulse_parser
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
filePath | string | Нет | URL документа для обработки |
file | file | Нет | Файл документа для обработки |
fileUpload | object | Нет | Данные загрузки файла из компонента file-upload |
pages | string | Нет | Диапазон страниц для обработки (нумерация с 1, например, "1-2,5") |
extractFigure | boolean | Нет | Включить извлечение рисунков из документа |
figureDescription | boolean | Нет | Генерировать описания/подписи для извлеченных рисунков |
returnHtml | boolean | Нет | Включать HTML в ответ |
chunking | string | Нет | Стратегии разбиения на фрагменты (через запятую: semantic, header, page, recursive) |
chunkSize | number | Нет | Максимальное количество символов на фрагмент при включенном разбиении |
apiKey | string | Да | Ключ API Pulse |
Выходные данные
Этот инструмент не производит никаких выходных данных.

