Transformasi Data dengan Pentaho

Victor Sebastian

Setelah kemarin kita sudah membahas tentang Extract, sekarang kita akan membahas proses selanjutnya dalam ETL, yaitu Trasnformasi. Transformasi data berfungsi untuk membuat data yang dimiliki suatu organisasi menjadi format data yang lebih teratur dan lebih bermakna. Ini merupakan langkah yang sangat penting dilakukan oleh setiap organisasi untuk dapat analisisa data mereka. Salah satu alat yang populer untuk melakukan transformasi data adalah Pentaho Data Integration (PDI). Dalam artikel ini, kita akan menjelajahi berbagai. fungsi yang dapat digunakan dalam Pentaho untuk merancang transformasi data yang efektif.

Fungsi-fungsi Penting dalam Transformasi Data

Proses transformasi merupakan proses mengolah data dari format asal menjadi format yang lebih sesuai untuk kepentingan analisis dan penyimpanan. Pengguna dapat menggunakan tools yang disediakan oleh Pentaho untuk merancang dan menyesuaikan transformasi data. Transformasi dapat mencakup pembersihan data, perubahan tipe data, penggabungan data, dan langkah-langkah lainnya untuk memastikan kualitas data menjadi lebih baik. Simak fungsi penting yang dapat kita gunakan di dalam Pentaho!

Penggunaan Fungsi Matematika: Pentaho menyediakan berbagai fungsi operasi matematika yang dapat digunakan untuk melakukan transformasi data. Pengguna dapat membuat ekspresi kompleks atau menggunakan fungsi bawaan untuk memanipulasi data sesuai kebutuhan.

Kita dapat menggunakan step “Calculator” untuk melakukan operasi matematika pada kolom

Contoh Ekspresi:

Menghitung total transaksi: `transaction_amount + previous_total_transactions`

Membulatkan jumlah transaksi: `ROUND(transaction_amount)`

Pemfilteran: Pengguna dapat menentukan kriteria pemfilteran untuk memilih atau mengabaikan data tertentu dalam proses transformasi. Ini memungkinkan kita untuk fokus pada subset data yang lebih relevan.

Kita bisa menyaring data hanya untuk transaksi di atas $100 dengan menggunakan step “Filter Rows” untuk mengecualikan baris yang tidak memenuhi kriteria tertentu.

Contoh Ekspresi:

transaction_amount > 100

Validasi Data: Pentaho memungkinkan pengguna untuk memasukkan langkah-langkah validasi ke dalam transformasi data untuk memastikan integritas dan kualitas dari suatu data.

Validasi data dapat ditambahkan menggunakan step “Filter Rows” atau “Validator” untuk memastikan integritas data.

Contoh Ekspresi:

Memastikan bahwa kolom-kolom yang penting tidak kosong atau status dokumen yang hanya untuk status ‘Completed’.

Menggabungkan Data (Join): Jika kita ingin menggabungkan data pelanggan dengan data transaksi penjualan berdasarkan ID pelanggan, kita dapat menggunakan step “Merge Join” atau “Database Join” dalam PDI untuk melakukan penggabungan ini.

Contoh Ekspresi SQL:

SELECT

customers.customer_id,

customers.customer_name,

sales.transaction_id,

sales.transaction_amount

     FROM

customers

JOIN

sales ON customers.customer_id = sales.customer_id

Penyuntingan Kolom (Column Operations): Pentaho memungkinkan kita untuk melakukan modifikasi kolom data sesuai kebutuhan. Contohnya, mengonversi format tanggal atau menggabungkan dua kolom menjadi satu.

Contoh Ekspresi:

Menggunakan step “Select Values” untuk mengunah format kolom dari number menjadi text


konfigurasi email

Fungsi – fungsi Utama yang Sering Digunakan dalam Transformasi Data

Mari kita bahas tentang Transformasi (Transformation) secara lebih detail dengan melihat ekspresi atau fungsi yang dapat kita gunakan dalam Pentaho Data Integration (PDI).

1. Fungsi String

UPPERCASE dan LOWERCASE: Mengubah teks menjadi huruf besar atau kecil.

SUBSTRING: Mengambil potongan teks dari sebuah string.

REPLACE: Mengganti nilai tertentu dalam sebuah string.

CONCAT: Menggabungkan beberapa string menjadi satu.

2. Fungsi Numerik

ROUND dan CEIL: Pembulatan nilai numerik.

ABS (Nilai Absolut): Mengembalikan nilai absolut dari sebuah angka.

3. Fungsi Tanggal

NOW: Mengembalikan tanggal dan waktu saat ini.

DATE_DIFF: Menghitung selisih waktu antara dua tanggal.

Date Formatting: Memformat tanggal ke dalam format tertentu.

4. Fungsi Konversi Tipe Data

CONVERT dan CAST: Mengonversi tipe data dari satu bentuk ke bentuk lainnya.

5. Fungsi Logika

IF-ELSE: Logika percabangan.

CASE WHEN: Logika percabangan kompleks.

COALESCE: Mengganti nilai null dengan nilai default.

6. Fungsi Agregasi

SUM, AVG, MIN, MAX: Operasi agregasi pada kolom numerik.

GROUP_CONCAT: Menggabungkan nilai-nilai dalam satu kolom.

7. Fungsi Tambahan untuk Transformasi Data yang Kompleks

Fungsi Analisis Data: LAG, LEAD, RANK, DENSE_RANK, ROW_NUMBER.

Fungsi Pivot dan Unpivot: Mengubah struktur data.

Fungsi Windowing: Perhitungan total akumulasi dalam jendela tertentu.

Dengan memahami dan menggunakan berbagai fungsi fungsi diatas, pengguna Pentaho dapat merancang transformasi data yang fleksibel dan efisien. Namun, penting untuk selalu mempertimbangkan kebutuhan bisnis spesifik dan jenis data yang diolah dalam setiap proses transformasi.

Editor’s Note

Di tahun 2019, Matt Casters, penemu Kettle Pentaho Data Integration, mengumumkan project baru yaitu Apache HOP, yang merupakan fork dari Kettle. Project ini bergerak lebih ke arah open source dan dengan menjadi salah satu top level project di Apache Foundation , kita memutuskan untuk melanjutkan dengan Apache HOP yang lebih sesuai dengan visi kita sebagai praktisi open source.

Photo of author

About the author

Victor Sebastian