緣由

初始學習Python便是以資料工程的領域入門,Anaconda提供不少資料科學與分析所需的套件,且預設安裝Jupyter notebook,基於傻瓜部署,一路使用至今。因如下介紹的conda的部署缺點,一直有考慮其他Python開發環境部署方式。

眾所皆知,Apple在2021推出自製ARM M1晶片,本篇操作載入ARM架構下的image,Ubuntu 20.04.5 LTS

以pyenv + virtualenv紀錄部署上的重點。

閱讀更多

從上篇文章中我們可以瞭解

  • 爬蟲的本質是要模擬人類瀏覽網頁的行為
  • 實際我們在瀏覽網頁時,瀏覽器與伺服器之間如何傳遞訊息

若對上一篇文章有興趣,可參考【爬蟲基礎介紹】part1: 什麼是爬蟲?

爬蟲的本質是模擬人類瀏覽網頁的行為,人類操作瀏覽器瀏覽網頁,也就是最終程式需要模擬瀏覽器與伺服器互動,不被發現偽裝,才能成功完成擷取數據的過程。因此我們需要瞭解瀏覽器與伺服器如何互動

本篇文章會更深入說明,瀏覽器與伺服器在互動時的角色與行為規範

閱讀更多

什麼是網路爬蟲

爬蟲是一個程式

這個程式可以做什麼?

可以模擬人類瀏覽網頁的行為,從中獲取網頁上所需的數據

比較口語化的說法是可以代替你自動從網站中取得資料,幾個優點如下,包括

  • 不需要時時刻刻盯著各大網站的重要訊息,才能獲取第一手資料
  • 從重複copy&paste的過程中解放
  • 獲得好幾個重要小幫手?

閱讀更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×