data_engineering

TIKI scales data platform visualization với Apache Druid như thế nào

Sep 23, 2021
apache-druid, big-data, data_engineering, olap, datamart, data-warehouse, data-visualization

Introduction # Tại sao phải build hệ thống data phục vụ visualization ? # Vào đầu năm 2019, khi mà anh em bắt đầu mệt mỏi với backlogs dài hơn cầu Sài Gòn chỉ để viết SQL & làm report Google Sheet thần thánh và Google Data Studio (để build dashboard report). Lúc mà hiệu suất của anh em chậm lại đáng kể bởi: Việc build report bằng Google Sheet đa số là viết 1 câu SQL vài trăm dòng, lấy dữ liệu từ các bảng raw (dữ liệu thô) & từ vài chục GB đến trăm GB data (với chi phí hơn 5$ để xử lý 1TB data), cực kì không hiệu quả. ...

Airflow Dags The Right Way

Aug 31, 2021
airflow, data_engineering, big-data

TLDR; Sau khi gặp khá nhiều vấn đề với lượng lớn python DAG khi upgrade, viết giúp dag & sau một thời gian thành con rơi, không ai maintain nữa. Mình tin rằng nhất định có một cách viết dags khác: Đơn giản & hiệu quả hơn thế 500 anh em BA, Analytics có thể dễ dàng tự viết pipelines cho riêng mình mà không phải tốn quá nhiều công sức Dễ dàng cho việc monitor, alerting khi có biến xảy ra Upgrade core của airflow không cần phải thay đổi các dags config hiện tại. ...

Path to airflow 2

Aug 20, 2021
airflow, data_infra, data_engineering, big-data

Airflow in the nut shell: Một phiên bảo cron tab (chạy mỗi ngày, mỗi tuần, mỗi giờ mỗi tháng) với UI xịn xò. Các tín đồ data hay sử dụng để viết ETL (Extract Transform Load) job Ví dụ như là select vào rows từ MySQL Thêm ít gia vị (Cooking) Load vào Datawarehouse 1 phút quảng cáo Bạn đang mong muốn tìm kiếm cơ hội mới Bạn muốn làm việc với những công nghệ big data tối tân nhất. ...

Share on: