Cili format skedari i Hadoop lejon formatin e ruajtjes së të dhënave në formë kolone?
Cili format skedari i Hadoop lejon formatin e ruajtjes së të dhënave në formë kolone?

Video: Cili format skedari i Hadoop lejon formatin e ruajtjes së të dhënave në formë kolone?

Video: Cili format skedari i Hadoop lejon formatin e ruajtjes së të dhënave në formë kolone?
Video: Технологические стеки — информатика для бизнес-лидеров, 2016 г. 2024, Prill
Anonim

Formatet e skedarëve kolonarë (parket, RCFile )

Nxehtësia më e fundit në formatet e skedarëve për ruajtjen e skedarëve iskolumnare Hadoop. Në thelb kjo do të thotë që në vend që të ruani rreshtat e të dhënave ngjitur me njëri-tjetrin, ju gjithashtu ruani vlerat e kolonave ngjitur me njëra-tjetrën. Pra, grupet e të dhënave ndahen si horizontalisht ashtu edhe vertikalisht.

Përveç kësaj, në çfarë formati i trajton Hadoop të dhënat?

Ka disa Hadoop - skedar specifik formatet që janë krijuar posaçërisht për të punuar mirë me MapReduce. Këto Hadoop - skedar specifik formatet përfshijnë bazuar në skedarë të dhëna struktura të tilla si skedarët e sekuencës, serializimi formatet si Avro, dhe kolone formatet të tilla si RCFile dhe Parket.

Dikush mund të pyesë gjithashtu, çfarë është formati i skedarit kolonë? Rreshti dhe Kolonare Magazinimi për zgjua. ORC është një kolone magazinimit format përdoret në Hadoop për Hivetables. Është një efikas formati i skedarit për ruajtjen e të dhënave në të cilat të dhënat përmbajnë shumë kolona. Një shembull janë të dhënat e Clickstream (web) për të analizuar aktivitetin dhe performancën e faqes në internet.

Në mënyrë të ngjashme, pyetet se çfarë është formati i skedarit në Hadoop?

bazë formatet e skedarëve janë: Teksti format , Çelës-Vlera format , Sekuenca format . Të tjera formatet të cilat përdoren dhe janë të njohura janë: Avro, Parket, RC ose Row-Columnar format , ORC ose kolona e rreshtit e optimizuar format.

Pse përdoren formatet e skedarëve kolonë në ruajtjen e të dhënave?

Rreshti i dyqaneve ORC të dhëna në format kolone Ky rresht - format kolone është shumë efikas për kompresim dhe magazinimit . Ai lejon përpunimin paralel në të gjithë grupin, dhe format kolone lejon kapërcimin e kolonave të panevojshme për përpunim dhe dekompresim më të shpejtë.

Recommended: