Pulse

Инструмент Pulse обеспечивает беспрепятственное извлечение текста и структурированного контента из широкого спектра документов — включая PDF-файлы, изображения и файлы Office — с использованием передовых технологий OCR (оптического распознавания символов) от Pulse. Разработанный для автоматизированных агентских рабочих процессов, Pulse Parser позволяет легко извлекать ценную информацию из неструктурированных документов и интегрировать извлеченный контент непосредственно в ваш рабочий процесс.

С помощью Pulse вы можете:

Извлекать текст из документов: Быстро преобразовывать отсканированные PDF-файлы, изображения и документы Office в удобный текст, markdown или JSON.
Обрабатывать документы по URL или загрузке: Просто предоставьте URL файла или используйте загрузку для извлечения текста из локальных документов или удаленных ресурсов.
Гибкие форматы вывода: Выбирайте между markdown, обычным текстом или JSON-представлениями извлеченного контента для последующей обработки.
Выборочная обработка страниц: Указывайте диапазон страниц для обработки, сокращая время обработки и затраты, когда вам нужна только часть документа.
Извлечение рисунков и таблиц: При необходимости извлекайте рисунки и таблицы с автоматической генерацией подписей и описаний для заполнения контекста.
Получать аналитику обработки: Получайте подробные метаданные о каждой задаче, включая тип файла, количество страниц, время обработки и многое другое.
Готовые к интеграции ответы: Включайте извлеченный контент в исследования, автоматизацию рабочих процессов или конвейеры анализа данных.

Идеально подходит для автоматизации утомительного просмотра документов, включения суммирования контента, исследований и многого другого, Pulse Parser переносит реальные документы в эпоху цифровых рабочих процессов.

Если вам нужны точные, масштабируемые и удобные для разработчиков возможности парсинга документов — для различных форматов, языков и макетов — Pulse позволяет вашим агентам читать мир.

Параметр	Тип	Обязательный	Описание
`filePath`	string	Нет	URL документа для обработки
`file`	file	Нет	Файл документа для обработки
`fileUpload`	object	Нет	Данные загрузки файла из компонента file-upload
`pages`	string	Нет	Диапазон страниц для обработки (нумерация с 1, например, "1-2,5")
`extractFigure`	boolean	Нет	Включить извлечение рисунков из документа
`figureDescription`	boolean	Нет	Генерировать описания/подписи для извлеченных рисунков
`returnHtml`	boolean	Нет	Включать HTML в ответ
`chunking`	string	Нет	Стратегии разбиения на фрагменты (через запятую: semantic, header, page, recursive)
`chunkSize`	number	Нет	Максимальное количество символов на фрагмент при включенном разбиении
`apiKey`	string	Да	Ключ API Pulse

Выходные данные

Этот инструмент не производит никаких выходных данных.

Pulse

Инструкции по использованию

Инструменты

`pulse_parser`

Входные параметры

Выходные данные

On this page