INHOUDSOPGAWE:

Kan ek Python op Hadoop laat loop?
Kan ek Python op Hadoop laat loop?

Video: Kan ek Python op Hadoop laat loop?

Video: Kan ek Python op Hadoop laat loop?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Mei
Anonim

Met 'n keuse tussen programmeertale soos Java, Scala en Python vir Hadoop ekosisteem, gebruik die meeste ontwikkelaars Python vanweë sy ondersteunende biblioteke vir data-ontledingstake. Hadoop streaming laat gebruiker toe om te skep en uitvoer Karteer/Verminder take met enige skrif of uitvoerbare as die karteerder of/en die verkleiner.

Net so word daar gevra hoe verbind Python aan Hadoop?

Koppel Hadoop HDFS met Python

  1. Stap 1: Maak seker dat Hadoop HDFS reg werk. Maak Terminal/Command Prompt oop, kyk of HDFS werk deur die volgende opdragte te gebruik: start-dfs.sh.
  2. Stap 2: Installeer libhdfs3-biblioteek.
  3. Stap 3: Installeer hdfs3-biblioteek.
  4. Stap 4: Kontroleer of verbinding met HDFS suksesvol is.

Net so, wat is Hadoop in Python? Python is 'n algemene programmeertaal wat gebruik kan word om byna alles in die programmeringswêreld te doen. Hadoop is 'n groot data-raamwerk wat in Java geskryf is om groot volumes data te hanteer. Daar is talle aanlyn institute wat Hadoop met Python kursusse soos: Analytixlabs. Edureka.

Die vraag is vervolgens, hoe laat ek 'n Python MapReduce-program in Hadoop loop?

Skryf 'n Hadoop MapReduce-program in Python

  1. Motivering.
  2. Wat ons wil doen.
  3. Voorvereistes.
  4. Python MapReduce-kode. Kaartstap: mapper.py. Verminder stap: reducer.py.
  5. Begin die Python-kode op Hadoop. Laai voorbeeld-invoerdata af. Kopieer plaaslike voorbeelddata na HDFS.
  6. Verbeterde Mapper- en Reducer-kode: gebruik Python-iterators en -opwekkers. mapper.py. verkleiner.py.

Wat is Hadoop Streaming jar?

Hadoop verspreiding bied 'n Java-hulpprogram genaamd Hadoop-stroom . Dit is verpak in 'n kruik lêer. Met Hadoop-stroom , kan ons Map Reduce-take skep en laat loop met 'n uitvoerbare skrif. Hadoop-stroom is 'n nut wat saam met die Hadoop verspreiding. Dit kan gebruik word om programme vir grootdata-analise uit te voer.

Aanbeveel: