Обзор
Загружайте, обрабатывайте и ищите в ваших документах с помощью интеллектуального векторного поиска и чанкинга
База знаний позволяет вам загружать, обрабатывать и искать в ваших документах с помощью интеллектуального векторного поиска и чанкинга. Документы различных типов автоматически обрабатываются, эмбеддингируются и становятся доступными для поиска. Ваши документы интеллектуально разбиваются на чанки, и вы можете просматривать, редактировать и искать в них с помощью естественно-языковых запросов.
Загрузка и обработка
Просто загрузите ваши документы, чтобы начать. AACFlow автоматически обрабатывает их в фоновом режиме, извлекая текст, создавая эмбеддинги и разбивая их на поисковые чанки.
Система обрабатывает весь конвейер обработки за вас:
- Извлечение текста: Содержимое извлекается из ваших документов с использованием специализированных парсеров для каждого типа файлов
- Интеллектуальный чанкинг: Документы разбиваются на осмысленные чанки с настраиваемым размером и перекрытием
- Генерация эмбеддингов: Создаются векторные эмбеддинги для возможностей семантического поиска
- Статус обработки: Отслеживайте прогресс по мере обработки ваших документов
Поддерживаемые типы файлов
AACFlow поддерживает PDF, Word (DOC/DOCX), обычный текст (TXT), Markdown (MD), HTML, HTM, Excel (XLS/XLSX), PowerPoint (PPT/PPTX), CSV, JSON и YAML/YML файлы. Файлы могут быть до 100 МБ каждый, с оптимальной производительностью для файлов до 50 МБ. Вы можете загружать несколько документов одновременно, а PDF файлы включают обработку OCR для сканированных документов.
Просмотр и редактирование чанков
После обработки ваших документов вы можете просматривать и редактировать отдельные чанки. Это дает вам полный контроль над тем, как организовано и ищется ваше содержимое.
Конфигурация чанков
При создании базы знаний вы можете настроить, как документы разбиваются на чанки:
| Настройка | Единица измерения | По умолчанию | Диапазон | Описание |
|---|---|---|---|---|
| Максимальный размер чанка | токены | 1,024 | 100-4,000 | Максимальный размер каждого чанка (1 токен ≈ 4 символа) |
| Минимальный размер чанка | символы | 100 | 100-2,000 | Минимальный размер чанка для избежания крошечных фрагментов |
| Перекрытие | токены | 200 | 0-500 | Контекстное перекрытие между последовательными чанками |
- Иерархическое разделение: Учитывает структуру документа (разделы, параграфы, предложения)
Возможности редактирования
- Редактирование содержимого чанка: Изменяйте текстовое содержимое отдельных чанков
- Настройка границ чанков: Объединяйте или разделяйте чанки по мере необходимости
- Добавление метаданных: Улучшайте чанки дополнительным контекстом
- Массовые операции: Эффективно управляйте несколькими чанками
Расширенная обработка PDF
Для PDF документов AACFlow предлагает расширенные возможности обработки:
Поддержка OCR
При настройке с Azure или Mistral OCR:
- Обработка сканированных документов: Извлечение текста из PDF на основе изображений
- Обработка смешанного содержимого: Обработка PDF с текстом и изображениями
- Высокая точность: Продвинутые AI модели обеспечивают точное извлечение текста
Использование блока Knowledge в рабочих процессах
После обработки ваших документов вы можете использовать их в ваших AI рабочих процессах через блок Knowledge. Это включает Retrieval-Augmented Generation (RAG), позволяя вашим AI агентам получать доступ и анализировать содержимое ваших документов для предоставления более точных, контекстных ответов.
Функции блока Knowledge
- Семантический поиск: Найдите релевантное содержимое с использованием естественно-языковых запросов
- Интеграция контекста: Автоматически включайте релевантные чанки в промпты агентов
- Динамическое извлечение: Поиск происходит в реальном времени во время выполнения рабочего процесса
- Оценка релевантности: Результаты ранжируются по семантическому сходству
Варианты интеграции
- Системные промпты: Предоставьте контекст вашим AI агентам
- Динамический контекст: Ищите и включайте релевантную информацию во время разговоров
- Поиск по нескольким документам: Запрашивайте по всей вашей базе знаний
- Фильтрованный поиск: Комбинируйте с тегами для точного извлечения содержимого
Технология векторного поиска
AACFlow использует векторный поиск на основе pgvector для понимания смысла и контекста вашего содержимого:
Семантическое понимание
- Контекстный поиск: Находит релевантное содержимое даже когда точные ключевые слова не совпадают
- Извлечение на основе концепций: Понимает отношения между идеями
- Поддержка нескольких языков: Работает на разных языках
- Распознавание синонимов: Находит связанные термины и концепции
Возможности поиска
- Естественно-языковые запросы: Задавайте вопросы на простом английском
- Поиск по сходству: Найдите концептуально похожее содержимое
- Гибридный поиск: Комбинирует векторный и традиционный поиск по ключевым словам
- Настраиваемые результаты: Контролируйте количество и порог релевантности результатов
Управление документами
Функции организации
- Массовая загрузка: Загружайте несколько файлов одновременно через асинхронный API
- Статус обработки: Обновления в реальном времени о процессе обработки документов
- Поиск и фильтрация: Быстро находите документы в больших коллекциях
- Отслеживание метаданных: Автоматический сбор информации о файлах и деталях обработки
Безопасность и конфиденциальность
- Безопасное хранение: Документы хранятся с безопасностью корпоративного уровня
- Контроль доступа: Разрешения на основе рабочего пространства
- Изоляция обработки: Каждое рабочее пространство имеет изолированную обработку документов
- Хранение данных: Настройте политики хранения документов
Начало работы
- Перейдите в вашу базу знаний: Доступ из боковой панели вашего рабочего пространства
- Загрузите документы: Перетащите или выберите файлы для загрузки
- Отслеживайте обработку: Наблюдайте, как документы обрабатываются и разбиваются на чанки
- Изучите чанки: Просматривайте и редактируйте обработанное содержимое
- Добавьте в рабочие процессы: Используйте блок Knowledge для интеграции с вашими AI агентами
База знаний преобразует ваши статические документы в интеллектуальный, доступный для поиска ресурс, который ваши AI рабочие процессы могут использовать для более информированных и контекстных ответов.

