Përmbajtje:

Cilat janë formatet e ndryshme të skedarëve në Hadoop?
Cilat janë formatet e ndryshme të skedarëve në Hadoop?

Video: Cilat janë formatet e ndryshme të skedarëve në Hadoop?

Video: Cilat janë formatet e ndryshme të skedarëve në Hadoop?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Nëntor
Anonim

Për fat të mirë për ju, komuniteti i të dhënave të mëdha është vendosur në thelb në tre të optimizuara formatet e skedarëve për përdorim në Hadoop grupimet: Kolona e Optimizuar e Rreshtit (ORC), Avro dhe Parket.

Më pas, dikush mund të pyesë gjithashtu, cilat janë llojet e ndryshme të formateve të të dhënave?

Janë tre llojet e të dhënave hartografike dhe GIS formatet e të dhënave . Secili lloji trajtohet ndryshe.

Llojet e formatit të të dhënave

  • Bazuar në skedarë- Shapefiles, Microstation Design Files (DGN), imazhe GeoTIFF.
  • Bazuar në drejtori - ESRI ArcInfo Coverages, US Census TIGER.
  • Lidhjet e bazës së të dhënave - PostGIS, ESRI ArcSDE, MySQL.

Për më tepër, cili format skedari është më i miri në hive? RCFile është kolonë rreshtash formati i skedarit . Kjo është një formë tjetër e Formati i skedarit Hive e cila ofron shkallë të lartë të kompresimit të nivelit të rreshtit. Nëse keni nevojë për të kryer disa rreshta në një kohë, atëherë mund të përdorni RCFile format.

Duke e mbajtur këtë në konsideratë, cilat janë formatet e zakonshme të hyrjes në Hadoop?

InputFormat krijon Inputsplit

  • InputFormat më të zakonshëm janë:
  • FileInputFormat- Është klasa bazë për të gjithë InputFormat të bazuara në skedar.
  • TextInputFormat- Është InputFormati i parazgjedhur i MapReduce.
  • KeyValueTextInputFormat- Është i ngjashëm me TextInputFormat.
  • Ndiqni lidhjen për të mësuar më shumë rreth InputFormat në Hadoop.

Cili është formati i skedarit orc në Hadoop?

Formati i skedarit ORC Kolona e optimizuar e rreshtit ( ORC ) formati i skedarit ofron një mënyrë shumë efikase për të ruajtur të dhënat e Hive. Është krijuar për të kapërcyer kufizimet e Kosheres tjetër formatet e skedarëve . Duke përdorur Skedarët ORC përmirëson performancën kur Hiveis lexon, shkruan dhe përpunon të dhëna.

Recommended: