Resume Data Warehouse pertemuan 10

Menentukan ketepatan data yang diperlukan dalam ETL

  1. Data Quality
    1. Apa itu Data Quality?
      1. Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
    2. Karakteristik dari Data Quality?
      1. Accuraccy 
        Akurasi data adalah sejauh mana data dengan benar mencerminkan objek dunia nyata atau acara yang dijelaskan.
      2. Accessibility 
        adalah data dapat dengan mudah diakses, dan dimengerti, serta dapat digunakan sesuai dengan keperluan yang dibutuhkan.
      3. Completeness 
        Kelengkapan data adalah sejauh mana atribut diharapkan data yang disediakan.
      4. Consistency 
        Konsistensi data berarti bahwa data di seluruh perusahaan harus sinkron dengan satu sama lain.
      5. Integrity 
        Integrity data berarti bahwa setiap data harus berhubungan atau dapat dihubungkan dengan data - data yang lain sehingga setiap data bisa saling terkait.
      6. Timeliness 
        merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
      7. Validity 
        Validity data adalah sejauh mana data tersebut dapat di jelaskan dengan benar dan sah sesuai dengan fakta - fakta yang ada sebenarnya.
  2. Data Quality Critical  
    Data yang berkualitas dapat : 
      • Meningkatkan kepercayaan diri dalam melakukan analisis 
      • Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi layanan 
      • Kebenaran yang sifatnya mutlak 
      • Meningkatkan produktivitas 
      • Meningkatkan kepuasan pelanggan

      3.  Data Quality Challenges
    Ada beberapa hal yang merupakan tantangan  untuk membangun kualitas data :
  1. Sumber Data
  • Penuaan data
  • Kesalahan input
  • Penipuan
  • Sistem Konversi

  1. Validasi Data 
    • Duplikasi data 
    • Beberapa atribut yang tercampur dalam satu field  
    • Ejaan yang berbeda untuk nama yang sama
    • Tidak adanya atribut kunci
  1. Biaya besar untuk menjaga kualitas data
  • Mengatur data agar selalu berkualitas membutuhkan biaya yang tidak sedikit
  • Membutuhkan orang – orang yang berkompeten untuk me-manage data
  1. Data Quality Tools
    1. Data Auditing
      1.  Data Auditing meningkatkan akurasi dan kebenaran data pada sumbernya. Tools ini pada umumnya membandingkan data di database sumber dengan aturan bisnis yang ada.
    2. Data Cleansing
      1.  Data Cleansing digunakan dalam staging area. Data Cleansing berguna untuk melakukan standarisasi, dan verifikasi data terhadap data yang tidak dikenali.
    3. Data Migration 
      1. Data Migration digunakan untuk mengekstrak data dari sumber untuk dikirim ke staging area dan dari staging area ke data warehouse.
    5. Data Quality Initiative
         
    Untuk bisa sukses, Data Quality program harus bisa dimulai oleh CEO, didukung oleh jajaran direksi, dan dijalankan oleh manajer yang khusus bertugas mengatur kualitas data.
   

Resume Data Warehouse pertemuan 7

ETL → Extraction, Transformation, Loading


Ekstrasi Data:
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
  1. Ekstraksi data secara otomatis dari aplikasi sumber.
  2. Penyaringan atau seleksi data hasil ekstraksi.
  3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
  4. Perubahan format layout data dari format aslinya.
  5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.