INHOUDSOPGAWE:

Hoe maak ek 'n PySpark DataFrame uit 'n lys?
Hoe maak ek 'n PySpark DataFrame uit 'n lys?

Video: Hoe maak ek 'n PySpark DataFrame uit 'n lys?

Video: Hoe maak ek 'n PySpark DataFrame uit 'n lys?
Video: Apache Spark SQL - Spark Using SQL - Apache Spark Tutorial - Spark OnlineLearningCenter 2024, November
Anonim

Ek volg hierdie stappe vir die skep van 'n DataFrame uit 'n lys van tuples:

  1. Skep a lys van tupels. Elke tupel bevat naam van 'n persoon met ouderdom.
  2. Skep 'n RDD van die lys hierbo.
  3. Skakel om elke tupel na 'n ry.
  4. Skep a Dataraam deur createDataFrame op RDD toe te pas met behulp van sqlContext.

As u dit in die oog hou, hoe omskep u 'n DataFrame na 'n lys in Python?

  1. Stap 1: Skakel die dataraam om na 'n geneste Numpy-skikking deur DataFrame.to_numpy() te gebruik, d.w.s.
  2. Stap 2: Skakel 2D Numpy-skikking om in 'n lys lyste.
  3. Stap 1: Transponeer die dataraam om rye as kolomme en kolomme as rye om te skakel.
  4. Stap 2: Skakel die dataraam om na 'n geneste Numpy-skikking met DataFrame.to_numpy()

Boonop, wat is 'n vonk DataFrame? A Spark DataFrame is 'n verspreide versameling data wat in benoemde kolomme georganiseer is wat bewerkings verskaf om aggregate te filter, groepeer of te bereken, en kan gebruik word met Vonk SQL. Datarame kan saamgestel word uit gestruktureerde datalêers, bestaande RDD's, tabelle in Hive of eksterne databasisse.

Weet ook, wat is PySpark SQL?

Vonk SQL is 'n Vonk module vir gestruktureerde dataverwerking. Dit verskaf 'n programmeringsabstraksie genaamd DataFrames en kan ook as 'n verspreide optree SQL navraag-enjin. Dit stel onveranderde Hadoop Hive-navrae in staat om tot 100x vinniger op bestaande ontplooiings en data te loop.

Is spark DataFrames onveranderlik?

In Vonk jy kan nie - Datarame is onveranderlik . Jy moet gebruik.

Aanbeveel: