Lompati ke konten utama Browser ini sudah tidak didukung. Show
Mutakhirkan ke Microsoft Edge untuk memanfaatkan fitur, pembaruan keamanan, dan dukungan teknis terkini. Mulai Cepat: Buat pabrik data dan alur menggunakan Python
Dalam artikel ini
BERLAKU UNTUK: Azure Data Factory Azure Synapse AnalyticsDalam mulai cepat ini, Anda membuat pabrik data dengan menggunakan Python. Alur dalam pabrik data ini menyalin data dari satu folder ke folder lain dalam penyimpanan Azure Blob. Azure Data Factory adalah layanan integrasi data berbasis cloud yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur dan mengotomatiskan pemindahan data dan transformasi data. Dengan menggunakan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data, yang disebut alur. Alur dapat menyerap data dari penyimpanan data yang berbeda. Alur memproses atau mengubah data dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics, dan Azure Machine Learning. Alur menerbitkan data output ke penyimpanan data seperti aplikasi Azure Synapse Analytics untuk kecerdasan bisnis (BI). Prasyarat
Membuat dan mengunggah file input
Menginstal paket Python
Membuat klien pabrik data
Buat pabrik dataTambahkan kode berikut ke metode Utama yang membuat pabrik data. Jika grup sumber daya Anda sudah ada, komentari pernyataan
Membuat layanan tertautTambahkan kode berikut ke metode Utama yang membuat layanan tertaut Azure Storage. Anda membuat layanan tertaut di pabrik data untuk menautkan penyimpanan data dan layanan komputasi ke pabrik data. Dalam mulai cepat ini, Anda hanya perlu membuat satu layanan tertaut Azure Storage sebagai sumber salinan dan penyimpanan sink, bernama "AzureStorageLinkedService" dalam sampel. Ganti
Membuat himpunan dataDi bagian ini, Anda membuat dua himpunan data: satu untuk sumber dan yang lain untuk sink. Membuat himpunan data untuk Azure Blob sumberTambahkan kode berikut ke metode Utama yang membuat himpunan data blob Azure. Untuk mengetahui informasi tentang properti himpunan data Azure Blob, lihat artikel Konektor blob Azure. Anda menentukan himpunan data yang mewakili data sumber di Azure Blob. Himpunan data Blob ini mengacu pada layanan tertaut Azure Storage yang Anda buat di langkah sebelumnya.
Membuat himpunan data untuk Azure Blob sinkTambahkan kode berikut ke metode Utama yang membuat himpunan data blob Azure. Untuk mengetahui informasi tentang properti himpunan data Azure Blob, lihat artikel Konektor blob Azure. Anda menentukan himpunan data yang mewakili data sumber di Azure Blob. Himpunan data Blob ini mengacu pada layanan tertaut Azure Storage yang Anda buat di langkah sebelumnya.
Membuat alurTambahkan kode berikut ke metode Utama yang membuat alur dengan aktivitas salin.
Membuat eksekusi alurTambahkan kode berikut ke metode Utama yang memicu eksekusi alur.
Memantau eksekusi alurUntuk memantau eksekusi alur, tambahkan kode berikut ke metode Utama:
Sekarang, tambahkan pernyataan berikut untuk memanggil metode Utama saat program dijalankan:
Skrip lengkapBerikut adalah kode Python lengkap:
Menjalankan kodeBangun dan mulai aplikasi, lalu verifikasi eksekusi alur. Konsol mencetak kemajuan pembuatan pabrik data, layanan tertaut, himpunan data, alur, dan eksekusi alur. Tunggu hingga Anda melihat detail eksekusi aktivitas salin dengan data berukuran dibaca/ditulis. Kemudian, gunakan alat seperti Penjelajah Azure Storage untuk memeriksa blob disalin ke "outputBlobPath" dari "inputBlobPath" seperti yang Anda tentukan dalam variabel. Berikut sampel outputnya:
Membersihkan sumber dayaUntuk menghapus pabrik data, tambahkan kode berikut ke program:
Langkah berikutnyaAlur dalam sampel ini menyalin data dari satu lokasi ke lokasi lain dalam penyimpanan blob Azure. Ikuti tutorial untuk mempelajari tentang penggunaan Data Factory dalam skenario lainnya. Mengapa Python digunakan untuk data science?Mudah Dipelajari
Selain itu python juga mudah dipelajari terutama bagi para pemula data science. Dengan menggunakan python program yang dibuat akan lebih ringkas, jelas dan mudah dipahami dibandingkan dengan bahasa pemrograman lainnya.
Apa itu Data Wrangling Python?Data wrangling adalah proses transformasi data mentah ke dalam format yang lebih rapi. Pertumbuhan jumlah data yang cepat dari sumber data yang berbeda inilah yang dimaksud dengan data mentah. Data mentah ini berisikan beragam tipe data.
Mengapa Python banyak digunakan?Karena memiliki library yang luas dan desain berorientasi objek yang bersih, penggunaan bahasa pemrograman Python dapat menunjang produktivitas programer dibanding saat menggunakan bahasa pemrograman lain seperti Java dan C++.
Function apa yang digunakan untuk melihat jumlah baris dan kolom dari suatu data frame?info() info() digunakan untuk menampilkan informasi detail tentang dataframe, seperti jumlah baris data, nama-nama kolom berserta jumlah data dan tipe datanya, dan sebagainya.
|