Istilah kunci Big Data yang wajib anda ketahui

Sebelum menyelami Big Data, tentu akan sangat membantu jika kita mengerti berbagai istilah kunci Big Data. Berikut ini salah satu contoh arsitektur dalam implementasi Big Data untuk mendapatkan gambaran awal terhadap istilah kunci Big Data :



Dengan memperhatikan contoh arsitektur di atas ada beberapa bagian utama, yang setiap bagian memiliki istilah kunci yang wajib kita ketahui agar dapat mamahami fondasi dasar Big Data :

1. Data Storage
  • Hadoop : Sistem untuk memproses volume data yang sangat besar
  • HDFS atau Hadoop Distributed File System : Sistem file terdistribusi berbasis Java untuk menyimpan volume data yang besar
  • Apache HBase : Untuk akses real-time data Hadoop, contoh database Hadoop

2. Data Processing

  • MapReduce : Anggap saja sebagai bahasa tingkat mesin (assembler) untuk komputasi terdistribusi (cluster) secara pararel. Digunakan untuk perhitungan di Hadoop, dengan kemampuan komputasi/memproses data dalam jumlah besar

3. Data Access
  • Pig : bahasa tingkat tinggi yang dikembangkan oleh Yahoo, yang menghasilkan kode MapReduce untuk menganalisis data sets yang besar.
  • Hive : bahasa tingkat tinggi yang dikembangkan oleh Facebook dengan sintaks seperti SQL, Hive menyediakan tools data warehousing untuk melakukan extract, transform and load (ETL) data, dan dan melakukan query terhadap file yang tersimpan di Hadoop files (HDFS)
  • AVRO : New format data serialisasi (protokol buffer dll)

4. Management
  • Apache Zookeeper : Sistem terdistribusi koordinasi, sebagai pusat konfigurasi dan penamaan registry untuk sistem terdistribusi dalam skala besar

Berikut ini adalah daftar istilah kunci Big Data lain-nya yang mungkin perlu anda ketahui selain yang tertera pada gambar arsitektur diatas :
  • Ambari : berfungsi untuk mengelola dan memonitor cluster Hadoop melalui web
  • YARN : adalah sistem operasi skala-besar untuk aplikasi Big Data
  • Spark : sebuah framework yang melakukan komputasi secara klastering
  • UIMA : adalah arsitektur untuk development, discovery, composition and deployment untuk keperluan analisis data tidak terstruktur
  • Lucene : adalah mesin pencarian text yang berbasi Java
  • Sqoop : Untuk mentransfer data terstruktur Hadoop
  • HCatalog : Sebagai komponen kunci dari Apache Hive , HCatalog merupakan metadata dan sistem manajemen table untuk platform Hadoop yang lebih luas. Hal ini memungkinkan penyimpanan data dalam format apapun baik terstruktur maupun tidak tersetruktur.
  • Oozie : Sistem Penjadwalan yang dikembangkan oleh Yahoo, untuk mengelola Jobs di Hadoop

Sekian artikel terkait pembahasan istilah kunci Big Data yang wajib diketahui, semoga artikel ini bisa membantu anda dalam memudahkan mempelajari Big Data.

1 Response to "Istilah kunci Big Data yang wajib anda ketahui"

  1. Terima kasih atas ulasan artikelnya. Btw, boleh nanya, sumber atau referensi untuk gambar arsitektur nya dari mana yaa?.

    ReplyDelete