Wat is RDD in Scala?
Wat is RDD in Scala?

Video: Wat is RDD in Scala?

Video: Wat is RDD in Scala?
Video: What is RDD in Apache Spark | Spark RDD vs MapReduce | Spark Tutorial |@OnlineLearningCenterIndia 2024, Mei
Anonim

Veerkragtige verspreide datastelle ( RDD ) is 'n fundamentele datastruktuur van Spark. Dit is 'n onveranderlike verspreide versameling van voorwerpe. RDD's kan enige tipe Python, Java, of Scala voorwerpe, insluitend gebruiker-gedefinieerde klasse. Formeel, 'n RDD is 'n leesalleen, gepartisioneerde versameling rekords.

Die vraag is ook, wat is die verskil tussen RDD en DataFrame?

RDD – RDD is 'n verspreide versameling data-elemente wat oor baie masjiene versprei is in die cluster. RDD's is 'n stel Java- of Scala-objekte wat data verteenwoordig. Dataraam – A Dataraam is 'n verspreide versameling data wat in benoemde kolomme georganiseer is. Dit is konseptueel gelyk aan 'n tabel in a relasionele databasis.

Verder, hoe word RDD versprei? Veerkragtig Versprei Datastelle ( RDD's ) Hulle is 'n versprei versameling van voorwerpe, wat in die geheue of op skywe van verskillende masjiene van 'n groep gestoor word. N Enkele RDD kan in verskeie logiese partisies verdeel word sodat hierdie partisies op verskillende masjiene van 'n groep gestoor en verwerk kan word.

hoe werk spark RDD?

RDD's in Vonk het versameling rekords wat partisies bevat. RDD's in Vonk word in klein logiese stukke data verdeel - bekend as partisies, wanneer 'n aksie uitgevoer word, sal 'n taak per partisie geloods word. Afskortings in RDD's is die basiese eenhede van parallelisme.

Wat is vinniger RDD of DataFrame?

RDD - Terwyl u eenvoudige groeperings- en samevoegingsbewerkings uitvoer RDD API is stadiger. Dataraam - In die uitvoering van verkennende analise, die skep van saamgestelde statistieke oor data, datarame is vinniger . RDD - As jy 'n lae-vlak transformasie en aksies wil hê, gebruik ons RDD's . Ook, wanneer ons hoëvlak abstraksies benodig, gebruik ons RDD's.

Aanbeveel: