Почему размер файла Parquet уменьшается при копировании с Amazon Athena

У меня есть разделенная таблица Hive, заполненная Hive и сохраненная на S3 как Parquet. Размер данных для конкретного раздела составляет 3 ГБ. Затем я делаю копию с Афиной с:

CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11

Размер полученных данных составляет менее половины (1,4 ГБ). Что может быть причиной?

РЕДАКТИРОВАТЬ: соответствующий оператор определения таблицы улья:

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://...'
TBLPROPERTIES (
  'parquet.compress'='SNAPPY', 
  'transient_lastDdlTime'=�'
)

Всего 1 ответ


Различные настройки сжатия - одно из возможных объяснений. Если ваши исходные файлы не были сжаты или сжаты с помощью Snappy, это можно объяснить. Если вы не укажете, какое сжатие использовать, Athena по умолчанию будет использовать gzip, который сжимает лучше, чем Snappy.

Если вы хотите получить более подробный ответ, чем вам, вы должны будете дать нам более подробную информацию. Как вы создавали исходные файлы, сжимаются ли они, какое сжатие, как выглядят данные и т. Д.


Есть идеи?

10000