Отладка, почему операция Dask Dataframe ничего не делает

Я унаследовал проект, используя Dask Dataframe для создания dataframe.

from dask import dataframe as dd

# leaving out param values for brevity

df = dd.read_csv(
    's3://some-bucket/*.csv.gz',
    sep=delimiter,
    header=header,
    names=partition_column_names,
    compression=table_compression,
    encoding='utf-8',
    error_bad_lines=False,
    warn_bad_lines=True,
    parse_dates=date_columns,
    dtype=column_dtype,
    blocksize=None,
)

df_len = len(df)

# more stuff

Я беру этот датафрейм, обрабатываю его и превращаю в паркет.

Процесс работает нормально, но иногда (до сих пор не определили шаблон), процесс просто висит на len(df) . Нет ошибок, нет выхода, ничего.

Есть ли в Dask Dataframes какая-либо концепция, предусматривающая тайм-аут для операции Dataframe? Возможно, есть возможность включить отладку, чтобы лучше понять, что происходит?

Всего 1 ответ


Диагностическая панель предоставляет больше информации здесь. https://docs.dask.org/en/latest/diagnostics-distributed.html содержит самую богатую информацию, но местные планировщики также предоставляют некоторую информацию ( https://docs.dask.org/en/latest/diagnostics-local .html ).


Есть идеи?

10000