CCCA wiki

交通大學校園電腦社群策進會

使用者工具

網站工具


側欄

側邊欄

社課:卑鄙爬蟲助

這是本文件的舊版!


卑鄙爬蟲助

講者 Eugene87222gholk
時間 2020/05/07 19:00
地點 jitsi
對象 有 python 或 javascript 基礎的人

Python 為近幾年來熱門的程式語言之一,好寫、易讀還有各種強大的 package 是它的特色。

node.js 是一高效能的 javascript 的直譯器, node.js 的出現使 javascript 從只能在瀏覽器中控制網頁的語言, 化身為與 python ruby 同等地位的通用腳本語言。

本次社課會介紹 Python 爬蟲與 NodeJs 爬蟲。Python部份使用 requests 與 beautifulsoup4 這兩個 package,並 demo 幾隻蟲,分享一些寫寫爬蟲的技巧。NodeJs 部份則是使用 cheerio 與 jsdom ,也會分享數個爬蟲作品。

本學期中,依上次社課 類競品分析-社團方向討論 的討論結果, 社團進行了一項 資訊整合平台 的專案。 聽眾在熟悉爬蟲技巧後,有興趣者就能直接參與專案開發, 協助統整各處事所舉辦的活動到統一的平台上, 感受到爬蟲的實用之處。

python

Python 為近幾年來熱門的程式語言之一,好寫、易讀還有各種強大的 package 是它的特色,在 Python 爬蟲這個環節會分成兩個部分,第一部分為介紹幾個基本套件與常用函數,主要使用 requests 與 beautifulsoup4 這兩個 package(約莫 10 分鐘),第二部分為 demo,會以學校的幾個網站為例,示範如何用爬蟲抓這些網站的公告,並分享一些寫寫爬蟲的技巧(時間未知yeeeeee)。

建議大家可以先在電腦上安裝 beautifulsoup4requests
pip install beautifulsoup4==4.8.0 requests
beautifulsoup4 要裝最新版本 4.9.0 的也可以,只是個人目前比較推薦 < 4.9.0

— eugene

node.js

node.js 是一高效能的 javascript 的直譯器, node.js 的出現使 javascript 從只能在瀏覽器中控制網頁的語言, 化身為與 python ruby 同等地位的通用腳本語言。

初入 node.js 的前端開發者, 會發現 node.js 中缺少 window、document 等 瀏覽器中用來操作 html 的函數。 cheerio 與 jsdom 套件,提供了處理 html 的功能, 極適合用作爬蟲中從 html 格式解析出資訊的部份。 只要再加上 http 的處理能力,即是一套簡單的爬蟲工具組。

社課中會簡單介紹 cheerio 與 jsdom 的使用, 並分享數個爬蟲作品。

gholk 2020/04/28 19:57

其它發布位置

粉絲專頁

【社課:卑鄙爬蟲助】
 
Python 為近幾年來熱門的程式語言之一,好寫、易讀還有各種強大的 package 是它的特色。
 
node.js 是一高效能的 javascript 的直譯器, node.js 的出現使 javascript 從只能在瀏覽器中控制網頁的語言, 化身為與 python ruby 同等地位的通用腳本語言。
 
本次社課會介紹 Python 爬蟲與 node.js 爬蟲。Python部份使用 requests 與 beautifulsoup4 這兩個 package,並 demo 幾隻蟲,分享一些寫寫爬蟲的技巧。NodeJs 部份則是使用 cheerio 與 jsdom ,也會分享數個爬蟲作品。
 
本學期中,依上次社課 類競品分析-社團方向討論 的討論結果, 社團進行了一項 資訊整合平台 的專案。 聽眾在熟悉爬蟲技巧後,有興趣者就能直接參與專案開發, 協助統整各處事所舉辦的活動到統一的平台上,感受到爬蟲的實用之處。
 
* 時間: 2020-05-07T19:00
* 地點: jitsi 線上會議平台,開始前會在聊天室與粉絲專頁公開會議網址。
* 講者: eugene 、 gholk
* 對象:有 python 或 javascript 基礎的人
* 網址: https://ccca.tw/社課:卑鄙爬蟲助

1)

telegram

無文案

投影片

社課/卑鄙爬蟲助.1588328291.txt.gz · 上一次變更: 2020/05/01 18:18 由 gold holk