INHOUDSOPGAWE:
2025 Outeur: Lynn Donovan | [email protected]. Laas verander: 2025-01-13 06:17
Gelukkig vir jou, het die groot data gemeenskap basies op drie geoptimaliseerde lêerformate vir gebruik in Hadoop trosse: Geoptimaliseerde rykolom (ORC), Avro en Parket.
Vervolgens kan 'n mens ook vra, wat is die verskillende tipes dataformate?
Daar is drie tipes data kartering en GIS dataformate . Elkeen tipe word anders hanteer.
Dataformaattipes
- Lêergebaseer- Shapefiles, Microstation Design Files (DGN), GeoTIFF-beelde.
- Gidsgebaseer - ESRI ArcInfo Dekkings, Amerikaanse Sensus TIGER.
- Databasisverbindings - PostGIS, ESRI ArcSDE, MySQL.
Verder, watter lêerformaat is die beste in korf? RCFile is rykolomvormig lêerformaat . Dit is 'n ander vorm van Korf-lêerformaat wat hoë ryvlakkompressiekoerse bied. As jy die vereiste het om verskeie rye per keer uit te voer, kan jy RCFile gebruik formaat.
As u dit in ag neem, wat is die algemene invoerformate in Hadoop?
InputFormat skep Inputsplit
- Mees algemene invoerformaat is:
- FileInputFormat- Dit is die basisklas vir alle lêergebaseerde invoerformaat.
- TextInputFormat- Dit is die verstek InputFormat van MapReduce.
- KeyValueTextInputFormat- Dit is soortgelyk aan TextInputFormat.
- Volg die skakel om meer te wete te kom oor InputFormat in Hadoop.
Wat is orc-lêerformaat in Hadoop?
ORC-lêerformaat Die geoptimaliseerde rykolom ( ORC ) lêerformaat bied 'n hoogs doeltreffende manier om Hive-data te stoor. Dit is ontwerp om die beperkings van die ander Korf te oorkom lêerformate . Met behulp van ORC-lêers verbeter prestasie wanneer Hiveis data lees, skryf en verwerk.