抖音使用的智能推薦機制。我們這里依舊是通過fiddler抓包(Fiddler是一款常見的抓包分析工具,對數(shù)據(jù)進行截獲、重發(fā)、編輯、轉(zhuǎn)存的過程叫做抓包)。現(xiàn)在的抖音有加密算法,之前網(wǎng)上的大部分代碼都不能用了,我們先看看有哪些加密字段。
這里主要是mas和as參數(shù)不知道咋構造,這里因為只是爬一個用戶的數(shù)據(jù),所以把整個url都copy到txt中,然后請求獲取數(shù)據(jù)。
?。ū匾糠郑?/div>
語言選擇:一般是了解Python、Java、Golang之一
熟悉多線程編程、網(wǎng)絡編程、HTTP協(xié)議相關
開發(fā)過完整爬蟲項目(最好有全站爬蟲經(jīng)驗,這個下面會說到)
反爬相關,cookie、ip池、驗證碼等等
熟練使用分布式
?。ǚ潜匾?,建議)
了解消息隊列,如RabbitMQ、Kafka、Redis等
具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學習經(jīng)驗
熟悉APP數(shù)據(jù)采集、中間人代理
大數(shù)據(jù)處理(Hive/MR/Spark/Storm)
數(shù)據(jù)庫Mysql、redis
熟悉Git操作、linux環(huán)境開發(fā)
讀懂js代碼、這個真的很重要
好了,大家收到這份雙十二福利,開不開心?