Përmbajtje:

Si mund të përmirësoj performancën time të sqoop?
Si mund të përmirësoj performancën time të sqoop?

Video: Si mund të përmirësoj performancën time të sqoop?

Video: Si mund të përmirësoj performancën time të sqoop?
Video: Meditimi, si mund të përmirësojë jetën tuaj 2024, Nëntor
Anonim

Për të optimizuar performancës , vendosur të numri i detyrave të hartës në një vlerë më të ulët se të numri maksimal i lidhjeve që të mbështet bazën e të dhënave. Kontrolluese të sasia e paralelizmit që Sqoop do të përdoret për të transferuar të dhëna është të Mënyra kryesore për të kontrolluar të ngarkoj e juaja bazën e të dhënave.

Përkatësisht, çfarë ndodh nëse sqoop dështon në mes të një procesi?

Një tipike Sqoop puna që gëlltit të dhëna nga një bazë të dhënash burimore në HDFS do t'i kopjojë të dhënat në një direktori të synuar. Skedari i kopjuar do të fshihet nëse sqoop dështon pa përfunduar.

Dikush mund të pyesë gjithashtu, si e arrini paralelizmin në sqoop? Kontrolluese Paralelizmi . Sqoop importon të dhëna paralelisht nga shumica e burimeve të bazës së të dhënave. Ju mund të specifikoni numrin e detyrave të hartës (proceset paralele) që do të përdoren për të kryer importin duke përdorur argumentin -m ose --num-mappers. Secili prej këtyre argumenteve merr një vlerë të plotë që korrespondon me shkallën e paralelizmi për të punësuar

Rrjedhimisht, si mund ta përmirësoj performancën time të pyetjes Hive?

Më poshtë është lista e praktikave që mund të ndjekim për të optimizuar Hive Queries

  1. Aktivizo kompresimin në Hive.
  2. Optimizo lidhjet.
  3. Shmangni klasifikimin global në Hive.
  4. Aktivizo Tez Execution Engine.
  5. Optimizo operatorin LIMIT.
  6. Aktivizo ekzekutimin paralel.
  7. Aktivizo modalitetin e rreptë të Mapreduce.
  8. Ulje e vetme për shumë grupe BY.

Si funksionon sqoop split?

Mund të përdoret për të rritur performancën e importit duke arritur paralelizëm më të madh. Sqoop krijon ndahet bazuar në vlerat në një kolonë të veçantë të tabelës e cila specifikohet nga -- ndarë -nga përdoruesi përmes komandës import. Nëse nuk është i disponueshëm, çelësi kryesor i tabelës hyrëse përdoret për të krijuar ndahet.

Recommended: