AACFlow

AWS Textract

Извлечение текста, таблиц и форм из документов

AWS Textract — это мощный AI-сервис от Amazon Web Services, предназначенный для автоматического извлечения печатного текста, рукописного текста, таблиц, форм, пар ключ-значение и других структурированных данных из отсканированных документов и изображений. Textract использует передовые технологии оптического распознавания символов (OCR) и анализа документов для преобразования документов в полезные данные, что позволяет автоматизировать процессы, аналитику, соблюдение нормативных требований и многое другое.

С помощью AWS Textract вы можете:

  • Извлекать текст из изображений и документов: Распознавать печатный текст и рукописный текст в форматах таких как PDF, JPEG, PNG или TIFF
  • Обнаруживать и извлекать таблицы: Автоматически находить таблицы и выводить их структурированное содержимое
  • Анализировать формы и пары ключ-значение: Извлекать структурированные данные из форм, включая поля и их соответствующие значения
  • Идентифицировать подписи и особенности макета: Обнаруживать подписи, геометрический макет и отношения между элементами документа
  • Настраивать извлечение с помощью запросов: Извлекать конкретные поля и ответы с использованием извлечения на основе запросов (например, "Какой номер счета?")

В AACFlow интеграция AWS Textract позволяет вашим агентам интеллектуально обрабатывать документы как часть их рабочих процессов. Это открывает сценарии автоматизации, такие как ввод данных из счетов, документов онбординга, контрактов, чеков и многого другого. Ваши агенты могут извлекать соответствующие данные, анализировать структурированные формы и генерировать сводки или отчеты непосредственно из загруженных документов или URL-адресов. Подключая AACFlow к AWS Textract, вы можете сократить ручные усилия, повысить точность данных и оптимизировать бизнес-процессы с помощью надежного понимания документов.

Инструкции по использованию

Интегрируйте AWS Textract в ваш рабочий процесс для извлечения текста, таблиц, форм и пар ключ-значение из документов. Режим одностраничного документа поддерживает JPEG, PNG и одностраничный PDF. Режим многостраничного документа поддерживает многостраничный PDF и TIFF.

Инструменты

textract_parser

Входные параметры

ПараметрТипОбязательныйОписание
accessKeyIdstringДаAWS Access Key ID
secretAccessKeystringДаAWS Secret Access Key
regionstringДаРегион AWS для сервиса Textract (например, us-east-1)
processingModestringНетТип документа: одностраничный или многостраничный. По умолчанию одностраничный.
filePathstringНетURL документа для обработки (JPEG, PNG или одностраничный PDF).
filefileНетФайл документа для обработки (JPEG, PNG или одностраничный PDF).
s3UristringНетURI S3 для многостраничной обработки (s3://bucket/key).
featureTypesarrayНетТипы функций для обнаружения: TABLES, FORMS, QUERIES, SIGNATURES, LAYOUT. Если не указано, выполняется только обнаружение текста.
itemsstringНетТип функции
queriesarrayНетПользовательские запросы для извлечения конкретной информации. Используется только когда featureTypes включает QUERIES.
itemsobjectНетКонфигурация запроса
propertiesstringНетТекст запроса
TextstringНетНет описания
AliasstringНетНет описания

Выходные данные

Этот инструмент не производит никаких выходных данных.

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать