Lompati ke konten utama Browser ini sudah tidak didukung. Show
Mutakhirkan ke Microsoft Edge untuk memanfaatkan fitur, pembaruan keamanan, dan dukungan teknis terkini. Pengenalan DataFrames - Python
Dalam artikel iniArtikel ini menyediakan beberapa contoh pengodean API DataFrame PySpark umum yang menggunakan Python. DataFrame adalah struktur data berlabel dua dimensi dengan kolom dari jenis yang berpotensi berbeda. Anda dapat memikirkan DataFrame seperti spreadsheet, tabel SQL, atau kamus objek seri. Untuk informasi dan contoh selengkapnya, lihat Mulai Cepat di situs web dokumentasi Apache Spark. Membuat DataFramesContoh ini menggunakan kelas Baris dari Spark SQL untuk membuat beberapa DataFrames. Konten dari beberapa DataFrames ini kemudian dicetak.
Output:
Lihat Pembuatan DataFrame dalam dokumentasi PySpark. Membuat DataFrames dari daftar barisContoh ini menggunakan metode
createDataFrame dari SparkSession (yang diwakili oleh variabel
Output:
Bekerja dengan DataFramesMenyatukan dua DataFramesContoh ini menggunakan metode gabungan untuk menggabungkan baris dalam DataFrame yang ditentukan dalam contoh sebelumnya ke dalam DataFrame baru.
Output:
Menulis DataFrame yang disatukan ke file ParquetContoh ini menggunakan metode perintah rm (dbutils.fs.rm) dari utilitas sistem File (dbutils.fs) di Utilitas Databricks untuk menghapus file Parquet yang ditentukan, jika ada. Metode tulis kemudian menggunakan metode parquet dari DataFrameWriter yang dihasilkan untuk menulis DataFrame dari contoh sebelumnya ke lokasi yang ditentukan di ruang kerja Azure Databricks dalam format Parquet.
Membaca DataFrame dari file ParquetContoh ini menggunakan metode baca untuk menggunakan metode parquet dari DataFrameReader yang dihasilkan untuk membaca file Parquet di lokasi yang ditentukan ke dalam DataFrame lalu menampilkan konten DataFrame.
Output:
Meledakkan kolom karyawanContoh ini menggunakan metode
pemilihan DataFrame sebelumnya untuk memproyeksikan sekumpulan ekspresi ke dalam DataFrame baru. Dalam hal ini, fungsi ledakan mengembalikan baris baru untuk setiap
Output:
Gunakan filter() untuk mengembalikan baris yang cocok dengan predikatContoh ini menggunakan metode filter DataFrame sebelumnya untuk hanya menampilkan baris yang nilai bidang
Output:
Contoh ini mirip dengan yang sebelumnya, kecuali hanya menampilkan baris dengan nilai bidang
Output:
Klausul ini where() setara dengan filter()Contoh ini setara dengan contoh sebelumnya, kecuali menggunakan metode di mana alih-alih metode filter.
Output:
Ganti nilai null dengan -- menggunakan fungsi DataFrame NaContoh ini menggunakan metode fillna dari DataFrame sebelumnya
Sebelumnya:
Setelahnya:
Ambil hanya baris dengan hilang firstName atau lastNameContoh ini menggunakan metode filter DataFrame sebelumnya
Output:
Contoh agregasi yang menggunakan agg() dan countDistinct()Contoh ini menggunakan metode pemilihan, groupBy, dan agg dari DataFrame
Output:
Membandingkan paket fisik kueri DataFrame dan SQLContoh ini menggunakan metode penjelasan dari DataFrame contoh sebelumnya untuk mencetak hasil rencana fisik untuk tujuan penelusuran kesalahan.
Contoh ini menggunakan metode createOrReplaceTempView dari DataFrame contoh sebelumnya untuk membuat tampilan sementara lokal dengan DataFrame ini. Tampilan sementara ini ada sampai sesi Spark terkait keluar dari cakupan. Contoh ini kemudian menggunakan metode
sql sesi Spark untuk menjalankan kueri pada tampilan sementara ini. Rencana fisik untuk kueri ini kemudian ditampilkan. Hasil panggilan
Menjumlahkan semua gajiContoh ini menggunakan metode
agg dari DataFrame
Output:
Contoh ini menampilkan jenis data yang mendasari
Output:
Mencetak statistik ringkasan untuk gajiContoh ini menggunakan metode deskripsi dari DataFrame sebelumnya
Output:
Contoh menggunakan panda dan integrasi MatplotlibContoh ini menggunakan pustaka
pandas dan Matplotlib untuk menampilkan informasi DataFrame
Output: Pembersihan: hapus file ParquetContoh ini menggunakan metode perintah rm (dbutils.fs.rm) dari utilitas sistem File (dbutils.fs) di Utilitas Databricks untuk menghapus file Parquet yang awalnya ditulis pada awal artikel ini.
Faq DataFrameFAQ ini membahas kasus penggunaan umum dan contoh penggunaan menggunakan API yang tersedia. Untuk deskripsi API yang lebih rinci, lihat dokumentasi PySpark. Bagaimana cara mendapatkan performa yang lebih baik dengan DATAFrame UDFs? Jika fungsionalitas ada dalam fungsi bawaan, menggunakan ini akan berkinerja lebih
baik. Contoh penggunaan berikut. Lihat juga referensi API Fungsi PySpark. Kami menggunakan fungsi bawaan dan API
Saya ingin mengonversi DataFrame kembali ke untai JSON untuk dikirim kembali ke Kafka. Ada fungsi yang mendasarinya
UDF saya mengambil parameter termasuk kolom untuk beroperasi. Bagaimana cara melewati parameter ini? Ada fungsi yang tersedia yang disebut
Saya memiliki tabel di metastore Apache Hive dan saya ingin mengakses tabel sebagai DataFrame. Apa cara terbaik untuk mendefinisikan ini? Ada beberapa cara untuk menentukan DataFrame dari tabel terdaftar. Memanggil
Saya ingin menghapus semua tabel yang di-cache pada kluster saat ini. Ada API yang tersedia untuk melakukan ini di tingkat global atau per tabel.
Saya ingin menghitung agregat pada kolom. Apa cara terbaik untuk melakukan ini? Metode
Saya ingin menulis DataFrames ke Parquet, tetapi ingin mempartisi pada kolom tertentu. Anda dapat menggunakan API berikut ini untuk menyelesaikan tugas ini. Pastikan kode tidak membuat kolom yang mempartisi dalam jumlah besar dengan himpunan data jika tidak, overhead metadata dapat menyebabkan perlambatan yang signifikan. Jika ada tabel SQL kembali oleh direktori ini, Anda harus memanggil
Bagaimana cara menangani kasus dengan benar di mana saya ingin memfilter data NULL? Anda dapat menggunakan
Bagaimana cara menyimpulkan skema menggunakan Ada
Anda memiliki himpunan data untai (karakter) yang dibatasi yang ingin Anda konversi ke tipe datanya. Bagaimana Anda akan mencapai ini? Gunakan API RDD untuk memfilter baris yang salah bentuk dan memetakan nilai ke jenis yang sesuai. Kami menentukan fungsi yang memfilter item menggunakan ekspresi reguler. |