Saya memiliki daftar Pandas dataframe yang ingin saya gabungkan menjadi satu Pandas dataframe. Saya menggunakan Python 2.7.10 dan Pandas 0.16.2 Show Saya membuat daftar dataframe dari:
Ini mengembalikan daftar bingkai data
Berikut ini beberapa contoh data
Saya ingin menggabungkan Contoh ini menggunakan dataset yang diunduh darihttp://everypolitician.org/kepada Anda dapat menemukan kode sumber untuk contoh ini di Dengan menggunakan data ini, tutorial ini menunjukkan cara untuk melakukan hal berikut:
Cara termudah untuk men-debug Python atau PySpark skrip adalah untuk membuat titik akhir pengembangan dan menjalankan kode Anda di sana. Kami menyarankan Anda untuk memulai dengan menyiapkan sebuah titik akhir pengembangan untuk tempat bekerja. Untuk informasi selengkapnya, lihat Melihat properti titik akhir pengembangan. Langkah 1: Melakukan Perayapan data di bucket Amazon S3
Langkah 2: Tambahkan skrip boilerplate ke notebook endpoint pengembanganTempelkan skrip boilerplate berikut ke notebook titik akhir pengembangan untuk mengimporAWS Glueperpustakaan yang Anda butuhkan, dan mengatur satu
Langkah 3: Memeriksa skema dari data dalam Katalog DataSelanjutnya, Anda dapat dengan mudah membuat
memeriksa DynamicFrame dariAWSKatalog Data Glue, dan memeriksa skema data. Misalnya, untuk melihat skema tabel
Berikut adalah output dari panggilan cetak:
Setiap orang dalam tabel adalah anggota dari beberapa badan kongres AS. Untuk melihat skema tabel
Output adalah sebagai berikut:
Output adalah sebagai berikut:
Langkah 4: Mem-filter DataBerikutnya, simpan hanya bidang yang Anda inginkan, dan ubah nama
Berikut ini menunjukkan outputnya:
Ketik berikut ini untuk melihat
Berikut ini menunjukkan outputnya:
Langkah 5: Menyatukan semuanyaSekarang, gunakanAWS Glueuntuk menggabungkan tabel-tabel relasional ini dan buat satu tabel riwayat penuh legislator
Anda dapat melakukan semua operasi ini dalam satu baris kode (diperpanjang):
Output adalah sebagai berikut:
Anda sekarang memiliki tabel akhir yang dapat Anda gunakan untuk analisis. Anda dapat menuliskannya dalam format yang ringkas dan efisien untuk analitik—yaitu Parquet—yang dapat Anda jalankan SQL padanyaAWS Glue, Amazon Athena, atau Amazon Redshift Spectrum. Panggilan berikut menulis tabel di beberapa file untuk mendukung pembacaan paralel cepat ketika melakukan analisis kemudian:
Untuk menempatkan semua data riwayat ke dalam satu file, Anda harus mengubahnya menjadi sebuah bingkai data, melakukan pemartisian ulang, dan menuliskannya:
Atau, jika Anda ingin memisahkannya berdasarkan Senat dan DPR:
Langkah 6: Mengubah data untuk database relasionalAWS Gluememudahkan untuk menulis data ke basis data relasional seperti Amazon Redshift, bahkan dengan data semi-terstruktur. Ia menawarkan transformasi Dengan menggunakan
Berikut ini adalah hasil dari panggilan
Selanjutnya, lihat pemisahan dengan memeriksa
Berikut ini adalah hasil dari panggilan
Bidang
Berikut hasilnya:
Perhatikan dalam perintah ini bahwa Jadi, dengan menggabungkan tabel
Simpan dan akses kredensi Amazon Redshift Anda dengan amanAWS Gluekoneksi. Untuk informasi tentang cara membuat koneksi Anda sendiri, lihat Mendefinisikan koneksi diAWS Glue Data Catalog. Anda sekarang siap untuk menulis data Anda ke koneksi dengan bersepeda melalui
Pengaturan koneksi Anda akan berbeda berdasarkan jenis database relasional Anda:
KesimpulanSecara keseluruhan,AWS GlueSangat fleksibel. Ia memungkinkan Anda mencapai, dalam beberapa baris kode, apa yang biasanya akan memerlukan waktu berhari-hari untuk ditulis. Anda dapat menemukan secara keseluruhan source-to-target Script ETL dalam file Python |