AACFlow

Databricks

Выполнение SQL-запросов и управление задачами в Databricks

Databricks — это унифицированная платформа аналитики данных, построенная на Apache Spark, предоставляющая совместную среду для инженерии данных, науки о данных и машинного обучения. Databricks объединяет хранилища данных, ETL и рабочие нагрузки AI в единую архитектуру lakehouse с поддержкой SQL-аналитики, оркестрации задач и управления кластерами на основных облачных провайдерах.

С интеграцией Databricks в AACFlow вы можете:

  • Выполнять SQL-запросы: Запускать SQL-запросы к SQL-хранилищам Databricks с поддержкой параметризованных запросов и Unity Catalog
  • Управлять задачами: Перечислять, запускать и отслеживать выполнения задач Databricks программно
  • Отслеживать статус выполнения: Получать детальную информацию о выполнении, включая время, состояние и результаты
  • Управлять кластерами: Перечислять и проверять конфигурации кластеров, состояния и детали ресурсов
  • Получать результаты выполнения: Получать доступ к результатам блокнотов, сообщениям об ошибках и логам из завершенных выполнений задач

В AACFlow интеграция с Databricks позволяет вашим агентам взаимодействовать с вашим lakehouse данных как часть автоматизированных рабочих процессов. Агенты могут запрашивать крупномасштабные наборы данных, оркестрировать ETL-пайплайны путем запуска задач, отслеживать выполнение задач и получать результаты — все без выхода из холста рабочего процесса. Это идеально подходит для автоматизированной отчетности, управления пайплайнами данных, запланированной аналитики и создания AI-управляемых рабочих процессов данных, которые реагируют на результаты запросов или исходы задач.

Инструкции по использованию

Подключитесь к Databricks для выполнения SQL-запросов к SQL-хранилищам, запуска и отслеживания выполнений задач, управления кластерами и получения результатов выполнения. Требуется Personal Access Token и URL хоста рабочего пространства.

Инструменты

databricks_execute_sql

Выполнить SQL-запрос к SQL-хранилищу Databricks и вернуть результаты встроенно. Поддерживает параметризованные запросы и Unity Catalog.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
warehouseIdstringДаID SQL-хранилища для выполнения запроса
statementstringДаSQL-запрос для выполнения (максимум 16 MiB)
catalogstringНетИмя Unity Catalog (эквивалентно USE CATALOG)
schemastringНетИмя схемы (эквивалентно USE SCHEMA)
rowLimitnumberНетМаксимальное количество строк для возврата
waitTimeoutstringНетСколько ждать результатов (например, "50s"). Диапазон: "0s" или "5s" до "50s". По умолчанию: "50s"

Выходные данные

ПараметрТипОписание
statementIdstringУникальный идентификатор выполненного запроса
statusstringСтатус выполнения (SUCCEEDED, PENDING, RUNNING, FAILED, CANCELED, CLOSED)
columnsarrayСхема столбцов результирующего набора
namestringИмя столбца
positionnumberПозиция столбца (0-based)
typeNamestringТип столбца (STRING, INT, LONG, DOUBLE, BOOLEAN, TIMESTAMP, DATE, DECIMAL и т.д.)
dataarrayСтроки результатов как 2D-массив строк, где каждый внутренний массив — это строка значений столбцов
totalRowsnumberОбщее количество строк в результате
truncatedbooleanБыл ли результирующий набор усечен из-за row_limit или byte_limit

databricks_list_jobs

Перечислить все задачи в рабочем пространстве Databricks с опциональной фильтрацией по имени.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
limitnumberНетМаксимальное количество задач для возврата (диапазон 1-100, по умолчанию 20)
offsetnumberНетСмещение для пагинации
namestringНетФильтровать задачи по точному имени (без учета регистра)
expandTasksbooleanНетВключать детали задач и кластеров в ответ (максимум 100 элементов)

Выходные данные

ПараметрТипОписание
jobsarrayСписок задач в рабочем пространстве
jobIdnumberУникальный идентификатор задачи
namestringИмя задачи
createdTimenumberМетка времени создания задачи (эпоха в мс)
creatorUserNamestringEmail создателя задачи
maxConcurrentRunsnumberМаксимальное количество одновременных выполнений
formatstringФормат задачи (SINGLE_TASK или MULTI_TASK)
hasMorebooleanДоступны ли дополнительные задачи для пагинации
nextPageTokenstringТокен для получения следующей страницы результатов

databricks_run_job

Запустить существующую задачу Databricks для немедленного выполнения с опциональными параметрами уровня задачи или блокнота.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
jobIdnumberДаID задачи для запуска
jobParametersstringНетПереопределения параметров уровня задачи в формате JSON-объекта (например, \{"key": "value"\})
notebookParamsstringНетПараметры задачи блокнота в формате JSON-объекта (например, \{"param1": "value1"\})
idempotencyTokenstringНетТокен идемпотентности для предотвращения дублирующих выполнений (максимум 64 символа)

Выходные данные

ПараметрТипОписание
runIdnumberГлобально уникальный ID запущенного выполнения
numberInJobnumberПорядковый номер этого выполнения среди всех выполнений задачи

databricks_get_run

Получить статус, время и детали выполнения задачи Databricks по его ID выполнения.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
runIdnumberДаКанонический идентификатор выполнения
includeHistorybooleanНетВключать историю исправлений в ответ
includeResolvedValuesbooleanНетВключать разрешенные значения параметров в ответ

Выходные данные

ПараметрТипОписание
runIdnumberID выполнения
jobIdnumberID задачи, к которой принадлежит это выполнение
runNamestringИмя выполнения
runTypestringТип выполнения (JOB_RUN, WORKFLOW_RUN, SUBMIT_RUN)
attemptNumbernumberНомер попытки повторного выполнения (0 для начальной попытки)
stateobjectИнформация о состоянии выполнения
lifeCycleStatestringСостояние жизненного цикла (QUEUED, PENDING, RUNNING, TERMINATING, TERMINATED, SKIPPED, INTERNAL_ERROR, BLOCKED, WAITING_FOR_RETRY)
resultStatestringСостояние результата (SUCCESS, FAILED, TIMEDOUT, CANCELED, SUCCESS_WITH_FAILURES, UPSTREAM_FAILED, UPSTREAM_CANCELED, EXCLUDED)
stateMessagestringОписательное сообщение для текущего состояния
userCancelledOrTimedoutbooleanБыло ли выполнение отменено пользователем или превышено время ожидания
startTimenumberМетка времени начала выполнения (эпоха в мс)
endTimenumberМетка времени окончания выполнения (эпоха в мс, 0 если все еще выполняется)
setupDurationnumberДлительность настройки кластера (мс)
executionDurationnumberДлительность выполнения (мс)
cleanupDurationnumberДлительность очистки (мс)
queueDurationnumberВремя, проведенное в очереди перед выполнением (мс)
runPageUrlstringURL страницы деталей выполнения в интерфейсе Databricks
creatorUserNamestringEmail пользователя, запустившего выполнение

databricks_list_runs

Перечислить выполнения задач в рабочем пространстве Databricks с опциональной фильтрацией по задаче, статусу и временному диапазону.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
jobIdnumberНетФильтровать выполнения по ID задачи. Пропустить для перечисления выполнений по всем задачам
activeOnlybooleanНетВключать только активные выполнения (PENDING, RUNNING или TERMINATING)
completedOnlybooleanНетВключать только завершенные выполнения
limitnumberНетМаксимальное количество выполнений для возврата (диапазон 1-24, по умолчанию 20)
offsetnumberНетСмещение для пагинации
runTypestringНетФильтровать по типу выполнения (JOB_RUN, WORKFLOW_RUN, SUBMIT_RUN)
startTimeFromnumberНетФильтровать выполнения, начатые в или после этой метки времени (эпоха в мс)
startTimeTonumberНетФильтровать выполнения, начатые в или до этой метки времени (эпоха в мс)

Выходные данные

ПараметрТипОписание
runsarrayСписок выполнений задач
runIdnumberУникальный идентификатор выполнения
jobIdnumberЗадача, к которой принадлежит это выполнение
runNamestringИмя выполнения
runTypestringТип выполнения (JOB_RUN, WORKFLOW_RUN, SUBMIT_RUN)
stateobjectИнформация о состоянии выполнения
lifeCycleStatestringСостояние жизненного цикла (QUEUED, PENDING, RUNNING, TERMINATING, TERMINATED, SKIPPED, INTERNAL_ERROR, BLOCKED, WAITING_FOR_RETRY)
resultStatestringСостояние результата (SUCCESS, FAILED, TIMEDOUT, CANCELED, SUCCESS_WITH_FAILURES, UPSTREAM_FAILED, UPSTREAM_CANCELED, EXCLUDED)
stateMessagestringОписательное сообщение о состоянии
userCancelledOrTimedoutbooleanБыло ли выполнение отменено пользователем или превышено время ожидания
startTimenumberМетка времени начала выполнения (эпоха в мс)
endTimenumberМетка времени окончания выполнения (эпоха в мс)
hasMorebooleanДоступны ли дополнительные выполнения для пагинации
nextPageTokenstringТокен для получения следующей страницы результатов

databricks_cancel_run

Отменить выполняющееся или ожидающее выполнение задачи Databricks. Отмена асинхронна; опрашивайте статус выполнения для подтверждения завершения.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
runIdnumberДаКанонический идентификатор выполнения для отмены

Выходные данные

ПараметрТипОписание
successbooleanБыл ли запрос на отмену принят

databricks_get_run_output

Получить вывод завершенного выполнения задачи Databricks, включая результаты блокнота, сообщения об ошибках и логи. Для многозадачных задач используйте ID выполнения задачи (не родительский ID выполнения).

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks
runIdnumberДаID выполнения для получения вывода. Для многозадачных задач используйте ID выполнения задачи

Выходные данные

ПараметрТипОписание
notebookOutputobjectВывод задачи блокнота (из dbutils.notebook.exit())
resultstringЗначение, переданное в dbutils.notebook.exit() (максимум 5 MB)
truncatedbooleanБыл ли результат усечен
errorstringСообщение об ошибке, если выполнение завершилось неудачно или вывод недоступен
errorTracestringТрассировка стека ошибки, если доступна
logsstringЛог-вывод (последние 5 MB) из задач spark_jar, spark_python или python_wheel
logsTruncatedbooleanБыл ли лог-вывод усечен

databricks_list_clusters

Перечислить все кластеры в рабочем пространстве Databricks, включая их состояние, конфигурацию и детали ресурсов.

Входные параметры

ПараметрТипОбязательныйОписание
hoststringДаХост рабочего пространства Databricks (например, dbc-abc123.cloud.databricks.com)
apiKeystringДаPersonal Access Token Databricks

Выходные данные

ПараметрТипОписание
clustersarrayСписок кластеров в рабочем пространстве
clusterIdstringУникальный идентификатор кластера
clusterNamestringОтображаемое имя кластера
statestringТекущее состояние (PENDING, RUNNING, RESTARTING, RESIZING, TERMINATING, TERMINATED, ERROR, UNKNOWN)
stateMessagestringЧеловекочитаемое описание состояния
creatorUserNamestringEmail создателя кластера
sparkVersionstringВерсия среды выполнения Spark (например, 13.3.x-scala2.12)
nodeTypeIdstringИдентификатор типа рабочего узла
driverNodeTypeIdstringИдентификатор типа драйверного узла
numWorkersnumberКоличество рабочих узлов (для кластеров фиксированного размера)
autoscaleobjectКонфигурация автомасштабирования (null для кластеров фиксированного размера)
minWorkersnumberМинимальное количество рабочих узлов
maxWorkersnumberМаксимальное количество рабочих узлов
clusterSourcestringИсточник (API, UI, JOB, MODELS, PIPELINE, PIPELINE_MAINTENANCE, SQL)
autoterminationMinutesnumberМинуты бездействия перед авто-завершением (0 = отключено)
startTimenumberМетка времени запуска кластера (эпоха в мс)

On this page

Начните создавать сегодня
Нам доверяют более 100 000 разработчиков.
SaaS-платформа для создания AI-агентов и управления агентным workforce.
Начать