AWS Textract — это мощный AI-сервис от Amazon Web Services, предназначенный для автоматического извлечения печатного текста, рукописного текста, таблиц, форм, пар ключ-значение и других структурированных данных из отсканированных документов и изображений. Textract использует передовые технологии оптического распознавания символов (OCR) и анализа документов для преобразования документов в полезные данные, что позволяет автоматизировать процессы, аналитику, соблюдение нормативных требований и многое другое.
С помощью AWS Textract вы можете:
- Извлекать текст из изображений и документов: Распознавать печатный текст и рукописный текст в форматах таких как PDF, JPEG, PNG или TIFF
- Обнаруживать и извлекать таблицы: Автоматически находить таблицы и выводить их структурированное содержимое
- Анализировать формы и пары ключ-значение: Извлекать структурированные данные из форм, включая поля и их соответствующие значения
- Идентифицировать подписи и особенности макета: Обнаруживать подписи, геометрический макет и отношения между элементами документа
- Настраивать извлечение с помощью запросов: Извлекать конкретные поля и ответы с использованием извлечения на основе запросов (например, "Какой номер счета?")
В AACFlow интеграция AWS Textract позволяет вашим агентам интеллектуально обрабатывать документы как часть их рабочих процессов. Это открывает сценарии автоматизации, такие как ввод данных из счетов, документов онбординга, контрактов, чеков и многого другого. Ваши агенты могут извлекать соответствующие данные, анализировать структурированные формы и генерировать сводки или отчеты непосредственно из загруженных документов или URL-адресов. Подключая AACFlow к AWS Textract, вы можете сократить ручные усилия, повысить точность данных и оптимизировать бизнес-процессы с помощью надежного понимания документов.
Инструкции по использованию
Интегрируйте AWS Textract в ваш рабочий процесс для извлечения текста, таблиц, форм и пар ключ-значение из документов. Режим одностраничного документа поддерживает JPEG, PNG и одностраничный PDF. Режим многостраничного документа поддерживает многостраничный PDF и TIFF.
Инструменты
textract_parser
Входные параметры
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
accessKeyId | string | Да | AWS Access Key ID |
secretAccessKey | string | Да | AWS Secret Access Key |
region | string | Да | Регион AWS для сервиса Textract (например, us-east-1) |
processingMode | string | Нет | Тип документа: одностраничный или многостраничный. По умолчанию одностраничный. |
filePath | string | Нет | URL документа для обработки (JPEG, PNG или одностраничный PDF). |
file | file | Нет | Файл документа для обработки (JPEG, PNG или одностраничный PDF). |
s3Uri | string | Нет | URI S3 для многостраничной обработки (s3://bucket/key). |
featureTypes | array | Нет | Типы функций для обнаружения: TABLES, FORMS, QUERIES, SIGNATURES, LAYOUT. Если не указано, выполняется только обнаружение текста. |
items | string | Нет | Тип функции |
queries | array | Нет | Пользовательские запросы для извлечения конкретной информации. Используется только когда featureTypes включает QUERIES. |
items | object | Нет | Конфигурация запроса |
properties | string | Нет | Текст запроса |
Text | string | Нет | Нет описания |
Alias | string | Нет | Нет описания |
Выходные данные
Этот инструмент не производит никаких выходных данных.

