Wat is verskillende lêerformate in Hadoop?
Wat is verskillende lêerformate in Hadoop?
Anonim

Gelukkig vir jou, het die groot data gemeenskap basies op drie geoptimaliseerde lêerformate vir gebruik in Hadoop trosse: Geoptimaliseerde rykolom (ORC), Avro en Parket.

Vervolgens kan 'n mens ook vra, wat is die verskillende tipes dataformate?

Daar is drie tipes data kartering en GIS dataformate . Elkeen tipe word anders hanteer.

Dataformaattipes

  • Lêergebaseer- Shapefiles, Microstation Design Files (DGN), GeoTIFF-beelde.
  • Gidsgebaseer - ESRI ArcInfo Dekkings, Amerikaanse Sensus TIGER.
  • Databasisverbindings - PostGIS, ESRI ArcSDE, MySQL.

Verder, watter lêerformaat is die beste in korf? RCFile is rykolomvormig lêerformaat . Dit is 'n ander vorm van Korf-lêerformaat wat hoë ryvlakkompressiekoerse bied. As jy die vereiste het om verskeie rye per keer uit te voer, kan jy RCFile gebruik formaat.

As u dit in ag neem, wat is die algemene invoerformate in Hadoop?

InputFormat skep Inputsplit

  • Mees algemene invoerformaat is:
  • FileInputFormat- Dit is die basisklas vir alle lêergebaseerde invoerformaat.
  • TextInputFormat- Dit is die verstek InputFormat van MapReduce.
  • KeyValueTextInputFormat- Dit is soortgelyk aan TextInputFormat.
  • Volg die skakel om meer te wete te kom oor InputFormat in Hadoop.

Wat is orc-lêerformaat in Hadoop?

ORC-lêerformaat Die geoptimaliseerde rykolom ( ORC ) lêerformaat bied 'n hoogs doeltreffende manier om Hive-data te stoor. Dit is ontwerp om die beperkings van die ander Korf te oorkom lêerformate . Met behulp van ORC-lêers verbeter prestasie wanneer Hiveis data lees, skryf en verwerk.