這一篇來聊聊數據分析入門,當你毫無頭緒,不知道要做什麼作品題目、不知道應該做哪些分析面向,或是你已經有好的題目好的分析方向,卻不知道怎麼找資料、實作作出一個作品,那麼,你可以參考看看我過往嘗試過的方式:從別人的作品找到靈感。
和大師學習:模仿與實際動手做
我常會去逛逛各大作品集的集散地:Tableau Public 以及 Kaggle,這兩個平台的差異是,Tableau Public 是以視覺化、互動式的BI報表為主,裡面可以找到很多視覺設計靈感,而Kaggle則是資料分析、機器學習、預測性分析這類分析的集散地,裡面以程式碼、資料集為主,更重要的是,非常多可以應用的各產業資料,是想要找分析資料的好地方。
當我對分析主題沒有想法的時候,我會先看看Tableau Public 裡面的作品,讓自己找到自己有興趣的主題、符合應徵產業的作品,假設沒有什麼有興趣的主題,也沒有偏好的產業,我就會隨心所欲,任意找一個看起來順眼喜歡的作品。
接下來,我會看看這份 Tableau 作品能不能被下載,可以在作品的右上角找到一個箭頭向下的下載按鈕,圖片的示範是這份作品的 Tableau 檔案可以被下載,不過作品使用的資料作者沒有開放。只要Tableau 工作簿的檔案可以下載,我會下載下來,研究裡面的設計、欄位計算,並透過模仿的方式,自己動手做出來。
但如果看到的 Tableau 作品不提供下載的話,例如下圖,作者不提供 Tableau 工作簿的下載,只能下載不能編輯的檔案圖的話,我則會研究如果要做出這份作品,我需要哪些資料欄位,接著再到 Kaggle 去找適合的資料,接著一樣是依樣畫葫蘆,試著透過模仿這份作品,做出一份自己的成果。
不過如果你是新手,我比較建議可以先找可以在 Tableau Public 下載資料以及資料的作品來模仿,因為這樣卡住的時候,你也才可以參考這位作者實際上是怎麼做的,挫折感也相對不會太大。
說到這裡,有些人可能對「模仿」別人的作品感到遲疑,心裡可能會想說「這樣複製別人的作品好嗎?」、「如果我複製別人的作品當作自己的,會不會被視為是抄襲啊」等疑問,但別擔心,我的意思不是要你做出來,直接當作自己的作品集,重點是要「自己動手做」的過程!
而且,自己動手做只做一次絕對不夠,第一次的模仿,可以用同樣的資料源,邊看作者的做法,邊試著自己做出來。第二次操作,則要避免自己看作者的做法,要試著不看任何參考作法,就自己從0到1做出作品來,第三次動手做,則可以選擇一份同樣產業的資料,試著加入自己的想法跟設計,到了第三次,這才會是完整屬於你的展示作品。
最後的小提醒,千萬不要小看這些複製別人作品動手做的過程,我記得我有一次看到一個非常精美清晰的 Tableau的作品,我就想學習自己來做一次,結果你猜猜我花了多久才做出來第一份作品出來?
答案是我花了整整 30 小時才複製出 80 %的報表,甚至還有一些設計我到現在還在參透出來呢!所以啊!就算是複製,也沒有想像中的輕鬆,但這個自己動手做的過程,卻可以讓我們把別人的多年精華,內化成自己的功力。
我的各階段學習重點
我自己的學習可以歸類成 3 個階段,每個階段學習的重點不太一樣:
1. 新手階段
著重於了解數據指標、常見的數據維度,以及對於這個產業來說,為什麼這些指標是重要的?這些指標與維度代表的意義是什麼?有哪些分析面向
當對產業來不了解的時候,千萬別急著動手做一份數據報表或數據分析作品!在對數據指標不熟悉的狀況下,貿然做作品,你可能可以做出好看的報表,但卻不見的可以做出有洞見、有商業參考價值的成果。所以這時候不要心急,理解產業的重點維度跟指標比較重要。
以電商產業來說,數據分析的維度就包括:產品分析維度、訂單分析維度、客戶分析維度、網站行為分析維度。而不同的分析角度,都有不同的分析用途,例如說,以產品分析來說,分析著重的可能是商品的獲利程度、熱銷款、哪些是很有銷售潛力的明星商品,哪些是可能需要下架停損的瘦狗商品。以網站分析來說,網站各階段的流失率可能才是重點,因為這有助於讓公司知道,我們應該在哪個地方在加強與消費者的溝通以留住客戶。
2. 熟悉階段
當熟悉各種數據指標之後,接下來就可以試著想「我們要分析什麼題目?怎麼分析?分析這個題目後,and then?我們可以提出什麼行動方案或是建議?」這時候就可以開始試著找別人的作品找分析的主題靈感,觀察別人的 KPI CARD 指標都放什麼指標。
當選定主題之後,我們就可以來模仿別人的作品,接著動手做出自己的作品集。這個階段的重點在於運用分析工具,可以是用Python產出的視覺化圖表,可以是POWER BI的報表,當然也可以是Tableau的報表。用哪一項工具可以視你的熟悉程度跟工作需求決定,這個階段的重點在於「處理資料」以及「資料視覺化」,怎麼樣可以讓不好懂的原始資料表,轉換成可以輕鬆理解詮釋的圖表或報表。
3. 進階階段
最後一個進階階段,這階段,我們已經了解了各種指標的意涵,能做出清楚的報表與圖表,最後一個階段,則是技術的再升級以及資料詮釋的能力。包括對於工具的熟悉度,以及做完圖表和報表之後,你怎麼解釋數據,提出你的「洞見與想法」,畢竟,數據呈現出來的始終是結果與現象,怎麼解讀這些結果、這個結果是好是壞、是好的話是哪裡做得好?不好的話可以做什麼事?這是我覺得數據分析師最有價值,也是我覺得這份工作最迷人的地方。不過,也不得不說,這是這份工作我覺得挑戰性最大、困難度最高的的任務。
一來,是在公開的資料平台,最難學習到的其實是觀點與數據視覺化呈現之後然後呢?所以我們很難從公開的資料學習,二來,同樣的數據結果,對於公司A來說,行動1可能管用,但到了B公司,行動1可能就行不通,所以如何面對產業、公司做分析與不同的建議,也是非常大的挑戰之一。
這個階段除了和公開的作品學習之外,大量的工作經驗累積、持續進修數據分析思維的書籍或是課程,都是有機會加強這部分能力的方式,未來等我稍微有一點心得,也許可以再寫一篇來分享。
好啦,這一篇先分享完概念以及我覺得各個經歷階段的學習重點,下篇文章見~
Sharon
Buy me a coffee 用行動支持我的內容創作
如果我的文章對你有幫助,歡迎用行動支持我的內容創作,小額贊助請我喝咖啡、留言或是寄信來跟我分享你的收穫,都會讓我持續有動力分享更多內容唷~