AWS Textract

AWS Textract — это мощный AI-сервис от Amazon Web Services, предназначенный для автоматического извлечения печатного текста, рукописного текста, таблиц, форм, пар ключ-значение и других структурированных данных из отсканированных документов и изображений. Textract использует передовые технологии оптического распознавания символов (OCR) и анализа документов для преобразования документов в полезные данные, что позволяет автоматизировать процессы, аналитику, соблюдение нормативных требований и многое другое.

С помощью AWS Textract вы можете:

Извлекать текст из изображений и документов: Распознавать печатный текст и рукописный текст в форматах таких как PDF, JPEG, PNG или TIFF
Обнаруживать и извлекать таблицы: Автоматически находить таблицы и выводить их структурированное содержимое
Анализировать формы и пары ключ-значение: Извлекать структурированные данные из форм, включая поля и их соответствующие значения
Идентифицировать подписи и особенности макета: Обнаруживать подписи, геометрический макет и отношения между элементами документа
Настраивать извлечение с помощью запросов: Извлекать конкретные поля и ответы с использованием извлечения на основе запросов (например, "Какой номер счета?")

В AACFlow интеграция AWS Textract позволяет вашим агентам интеллектуально обрабатывать документы как часть их рабочих процессов. Это открывает сценарии автоматизации, такие как ввод данных из счетов, документов онбординга, контрактов, чеков и многого другого. Ваши агенты могут извлекать соответствующие данные, анализировать структурированные формы и генерировать сводки или отчеты непосредственно из загруженных документов или URL-адресов. Подключая AACFlow к AWS Textract, вы можете сократить ручные усилия, повысить точность данных и оптимизировать бизнес-процессы с помощью надежного понимания документов.

Инструкции по использованию

Интегрируйте AWS Textract в ваш рабочий процесс для извлечения текста, таблиц, форм и пар ключ-значение из документов. Режим одностраничного документа поддерживает JPEG, PNG и одностраничный PDF. Режим многостраничного документа поддерживает многостраничный PDF и TIFF.

Параметр	Тип	Обязательный	Описание
`accessKeyId`	string	Да	AWS Access Key ID
`secretAccessKey`	string	Да	AWS Secret Access Key
`region`	string	Да	Регион AWS для сервиса Textract (например, us-east-1)
`processingMode`	string	Нет	Тип документа: одностраничный или многостраничный. По умолчанию одностраничный.
`filePath`	string	Нет	URL документа для обработки (JPEG, PNG или одностраничный PDF).
`file`	file	Нет	Файл документа для обработки (JPEG, PNG или одностраничный PDF).
`s3Uri`	string	Нет	URI S3 для многостраничной обработки (s3://bucket/key).
`featureTypes`	array	Нет	Типы функций для обнаружения: TABLES, FORMS, QUERIES, SIGNATURES, LAYOUT. Если не указано, выполняется только обнаружение текста.
`items`	string	Нет	Тип функции
`queries`	array	Нет	Пользовательские запросы для извлечения конкретной информации. Используется только когда featureTypes включает QUERIES.
`items`	object	Нет	Конфигурация запроса
`properties`	string	Нет	Текст запроса
`Text`	string	Нет	Нет описания
`Alias`	string	Нет	Нет описания

Выходные данные

Этот инструмент не производит никаких выходных данных.

AWS Textract

Инструкции по использованию

Инструменты

`textract_parser`

Входные параметры

Выходные данные

On this page