快檢視與統計手上的 DataFrame

接下來要來教大家怎麼看自己手邊的資料啦,在 Pandas 裡面有很多內建的指令,可以讓你初步的了解你手邊的資料到底長什麼樣子。(不過這邊因為這邊的資料量很小,所以看起來好像脫褲子放屁,但是未來資料量一大的時候,這些技巧就會變得相當有用。)

這邊首先要請大家先建立一個 DataFrame 的表格,先打入以下程式碼:

import pandas as pd
name = ['Bob', 'Tom', 'Jason', 'Marry', 'Julia', 'John', 'Cathy', 'Andy']
subject = ['Chinese', 'Math', 'Science', 'Music', 'PE', 'History']
scores = [[ 52,85,96,100,75,54],[40,98,93,54,33,20],[100,97,54,55,100,88],
 [72,67,64,53,87,83],[45,90,100,55,34,96], [99,47,85,56,60,100],
 [100,36,89,64,85,50],[85,36,45,79,84,39]]
df = pd.DataFrame(scores, index = name, columns = subject)
df

不知道我在幹嘛嗎?可以來這邊回想一下 DataFrame 到底是什麼~接著就要開始新的教學囉~~把資料讀進來之後,我們來看要怎麼看那些資料吧!!

1.查看首尾資料:

df.head()
df.head(3)
df.tail(4)

使用df.head()可以檢視前五筆資料,聰明大家一定可以類推:df.tail()可以看到後五筆資料。在括號裡面填入數字的話,則更改成想看到的任意組數。輸出的結果在下面,當我們讀入的資料量很龐大的時候,可以利用這種方式來看表格的形式,另外,一份表格在頭尾的地方格式最容易跑掉,所每份資料讀進來的時候可以先用這兩種方式確認資料要如何調整。

2.將index排序:

df.sort_index(axis=1, ascending=True)

在資料表中,我們可以把行跟列的索引值按照順序排列,其中axis = 0的時候,是排”行的索引值axis = 0則是排列的索引值。ascending則是用來選擇要順序或是反序排列。

上面這個是依照行的索引值,把名字字首按照順序排好(A-Z)。

而這個則是將列的索引值按照順序排好。

3.按照數值大小排序:

好接下來假設我們想按照成績的順序來看的話,我們可以利用df.sort_values搭配一個index 來排序。假設我想看按照數學分數的高低將名字做排序,例如下面這樣:

df.sort_values(by='Math')

就會變成下面那樣

4.檢視基礎統計資料:

最後,若是我們想看基礎的統計分析的話,這裡也提供一個簡單快速的指令:df.describe(),我們會發現 Python 將基礎的統計資料都幫我們算出來拉~~

df.describe()

其中 count 代表的是有值出現的次數(有可能會發生數值缺失的狀況,像是這個例子中或許代表他生病沒考到試之類的);mean 就是平均值;std 是標準差;min 最小值;25%是第一四分位數;50%中位數;75%第三四分位數;max 最大值。

好啦~到這堂課應該已經涵蓋”正常人”約80%需要用到的統計數據囉!!不過 TinyCorner 不會到這邊就停止腳步的,因為我們的目標就是要超越普通人,不然這樣其實回去用 Excel就好….(不過如果熟悉的話,絕對還是會比 Excel 快很多)。未來會慢慢用一些其他的統計工具,我也會去找一些真實數據來使用,請大家慢慢期待阿~~

 

Facebook Comments

發表迴響