資料哪裡來: 爬蟲實戰
本工作坊將介紹網路爬蟲,包括最基本的HTML剖析,BeautifulSoup套件操作,正規表達式操演。並再進一步介紹表單與動態網頁爬蟲議題。最後模擬人類行為的爬蟲程式與資料儲存等實作技巧。
09:00 – 09:30簡單爬蟲 HTML parser
09:30 – 10:00 BeautifulSoup的常用函數
10:00 – 10:30正則表達式 Regular expression
10:30 – 11:00爬過表單與登入頁 GET vs. POST
11:00 – 11:30 Ajax 與動態網頁爬蟲
11:30 – 12:00避開Scraping 陷阱+資料儲存
2017/12/15 13:30-16:30 NSC 數位學習tutorial (理工二館B305)
手把手教你文字分析 (Hands-on Tutorial of Text Analytics)
簡介:
聊天機器人(ChatBot)近年來被各企業寄予厚望,將其定義為可創造差異化服務的新工具,也因此帶動文字分析的需求。本工作坊將帶領大家設計一個資料驅動(data-driven)的聊天機器人,透過自動化的文字語意、分群、情感分析,聊天機器人將可以是知識溝通的新橋梁,有效提升資訊服務的品質。”文字資料分析”,將會介紹文字處理與語意理解(Processing and Understanding Text),Word Embedding的技術與應用。文字分群(Text Clustering) 將介紹Affinity propagation 的分群演算法,以抽取文字的代表性意見。亦介紹情感分析(sentiment analysis)技術於理解使用者滿意度。
機會難得,歡迎同學踴躍參加~!