Cara menggunakan PANDA.READ_CSV pada Python

Pandas memungkinkan kita untuk membaca dan menganalisis dari berbagai jenis data seperti CSV, JSON, XLSX, HTML, XML

Pada artikel sebelumnya kita telah berkenalan dengan fungsi read_csv()untuk membaca file format CSV

Kita akan bahas satu persatu cara membaca format file di Pandas

CSV

Untuk membaca file CSV kita gunakan fungsi read_csv()

umumnya nilai dalam format CSV dipisahkan oleh koma sehingga parameter separator fungsi read_csv() adalah koma

Jika nilai tidak terpisah oleh koma maka harus ditambahkan parameter separator sesuai dengan bentuk file

Misalnya, file CSV yang dipisah oleh titik koma (;)

Pertama buat file CSV dengan isi sebagai berikut dan simpan dengan nama data.csv

Name;Address
Faqih;Bandung
Ina;Jakarta
Doni;Surabaya
Roni;Bali

Kemudian baca file data.csv di Jupyter Notebook

Cara menggunakan PANDA.READ_CSV pada Python

Jika tidak didefinisikan separatornya maka akan dianggap 1 field seperti pada hasil pertama

Contoh lainnya misal terdapat data di CSV yang tidak memiliki header (update file CSV dengan menghapus headernya seperti ini)

Faqih;Bandung
Ina;Jakarta
Doni;Surabaya
Roni;Bali

Maka saat membaca file parameter headernya harus menjadi Noneagar baris pertama dari data tidak dianggap sebagai header

Cara menggunakan PANDA.READ_CSV pada Python

Kita juga bisa mendefinisikan header dengan menambahkan parameter namesdan memasukkan array untuk setiap fieldnya

Cara menggunakan PANDA.READ_CSV pada Python

Detail parameter lainnya dapat kita ketahui dengan menekan tombol shift+tab di dalam fungsi di Jupyter Notebook

Cara menggunakan PANDA.READ_CSV pada Python

JSON

JSON (JavaScript object notation) adalah format file yang berbentuk semi-structured artinya setiap baris data tidak harus memiliki field yang sama dengan baris data lainnya

Format JSON biasanya sering digunakan untuk menyimpan data dari social media, IoT dan sebagainya yang membutuhkan fleksibilitas penyimpanan data text di file

Pertama kita buat dulu file JSON yang berbentuk JSON array dengan nama data.json dengan isi sebagai berikut

[
	{"Name": "Faqih","Address": "Bandung"},
	{"Name": "Ina","Address": "Jakarta"},
	{"Name": "Doni","Address": "Surabaya"},
	{"Name": "Roni","Address": "Bali"}
]
Cara menggunakan PANDA.READ_CSV pada Python

Ada juga JSON yang berbentuk JSON Object seperti ini

{"Name": "Faqih","Address": "Bandung"}
{"Name": "Ina","Address": "Jakarta"}
{"Name": "Doni","Address": "Surabaya"}
{"Name": "Roni","Address": "Bali"}

Bentuk JSON diatas adalah bentuk JSON object dan biasanya ditemui dari sistem yang menghasilkan data secara terus menerus seperti data hasil stream dari IoT

Selanjutnya kita baca file tersebut dengan Pandas dengan menggunakan parameter lines=True

Cara menggunakan PANDA.READ_CSV pada Python

Ada juga JSON yang berbentuk nested yang lebih komplek dan harus dilakukan proses Flatten untuk menormalisasi datanya.. mungkin akan kita bahas di artikel lainnya

XLSX

Format selanjutnya adalah format XLSX atau merupakan format dari Ms Excel

Gunakan fungsi read_excel() untuk membaca isi dari data

Misalnya kita punya File excel dengan nama data.xlsx dengan nama sheet mahasiswa

Cara menggunakan PANDA.READ_CSV pada Python

Cara membacanya di Pandas adalah sebagai berikut

Cara menggunakan PANDA.READ_CSV pada Python

Jika kita mempunyai sheet lainnya dan ingin dibaca cukup ganti saja parameter sheetname sesuai dengan sheet yang ingin dibaca

Misalkan kita tambahkan sheet dosen

Cara menggunakan PANDA.READ_CSV pada Python
Cara menggunakan PANDA.READ_CSV pada Python

HTML

Pandas juga dapat membaca file HTML.. misalnya ingin membaca table yang berada di halaman HTML

Misalnya kita punya Table HTML seperti ini

<!DOCTYPE html>
<html>
<head>
	<title></title>
</head>
<body>
	<table>
		<th>
			<td>Name</td>
			<td>Address</td>
		</th>
		<tr>
			<td>Faqih</td>
			<td>Bandung</td>
		</tr>
		<tr>
			<td>Ina</td>
			<td>Jakarta</td>
		</tr>
	</table>
</body>
</html>

Kita dapat menggunakan read_html() untuk membaca kodenya

Cara menggunakan PANDA.READ_CSV pada Python

Karena hasilnya berupa list kita dapat menambahkan element ke-0 dengan tambahan [0] di belakang fungsi read_html()

Cara menggunakan PANDA.READ_CSV pada Python

Jika kita ingin membaca table dari web cukup diparsing saja url nya di fungsi read_html()

Misalnya kita akan membaca table di link ini https://ngodingdata.com/tutorial-mongodb-memahami-konsep-database-nosql/’ yang di dalam artikel ini terdapat table seperti ini

Cara menggunakan PANDA.READ_CSV pada Python

Kita gunakan fungsi read_html() hasilnya adalah seperti ini

Cara menggunakan PANDA.READ_CSV pada Python

Contoh-contoh diatas adalah cara untuk membaca beberapa jenis format file dengan Python Pandas

Selanjutnya kita akan belajar cara menangani missing value dengan Pandas.. Stay tuned 😀

Post navigation

Bagaimana cara membaca data CSV?

Menggunakan Microsoft Excel untuk membuka dan mengelola file CSV.
Buka MS Excel anda..
Klik > data > From Text/CSV..
Kemudian Pilih File CSV yang sudah anda download sebelumnya > rubah Delimiternya ke "Comma" > Klik Load..

Apa itu CSV dalam python?

Format CSV (Comma Separated Values) adalah format impor dan ekspor data yang paling umum digunakan untuk data spreadsheet dan database.

Bagaimana cara membuat file CSV?

Jika Anda menggunakan Google Spreadsheets, opsi yang perlu dipilih adalah “File > Download as”. Pilih “CSV” dari menu drop-down “Save as type”. Tikkan nama berkas CSV, kemudian pilih “Save”. Sekarang Anda sudah membuat berkas CSV, dan koma secara otomatis akan ditambahkan ke berkas untuk memisahkan setiap kolom.