Watter lêerformaat van Hadoop laat kolomêre databergingformaat toe?
Watter lêerformaat van Hadoop laat kolomêre databergingformaat toe?

Video: Watter lêerformaat van Hadoop laat kolomêre databergingformaat toe?

Video: Watter lêerformaat van Hadoop laat kolomêre databergingformaat toe?
Video: The columnar roadmap: Apache Parquet and Apache Arrow 2024, Desember
Anonim

Kolomlêerformate (parket, RCFiel )

Die nuutste hotness in lêerformate vir Hadoop iskolomlêerberging. Basies beteken dit dat in plaas daarvan om net rye data langs mekaar te stoor, stoor jy ook kolomwaardes langs mekaar. Datastelle word dus beide horisontaal en vertikaal verdeel.

Behalwe dit, in watter formaat hanteer Hadoop data?

Daar is verskeie Hadoop -spesifieke lêer formate wat spesifiek geskep is om goed met MapReduce te werk. Hierdie Hadoop -spesifieke lêer formate sluit lêer-gebaseer in data strukture soos volgorde lêers, serialisering formate soos Avro, en kolomvormig formate soos RCFile en Parket.

Mens kan ook vra, wat is kolomlêerformaat? Ry en Kolomblad Berging vir Korf. ORC is 'n kolomvormig berging formaat gebruik in Hadoop vir Hivetables. Dit is 'n doeltreffende lêerformaat vir die stoor van data waarin rekords baie kolomme bevat. 'n Voorbeeld is Clickstream (web)data om webwerfaktiwiteit en prestasie te ontleed.

Net so word gevra, wat is lêerformaat in Hadoop?

Basies lêerformate is: Teks formaat , Sleutel-waarde formaat , Volgorde formaat . Ander formate wat gebruik word en welbekend is, is: Avro, Parket, RC of Row-Columnar formaat , ORC of Optimized RowColumnar formaat.

Waarom word kolomlêerformate in datapakhuise gebruik?

ORC winkels ry data in kolomformaat . Hierdie ry- kolomformaat is hoogs doeltreffend vir kompressie en berging . Dit maak voorsiening vir parallelle verwerking oor acluster, en die kolomformaat maak dit moontlik om onnodige kolomme oor te slaan vir vinniger verwerking en dekompressie.

Aanbeveel: