php 微信公眾平臺(tái)開發(fā)教程爬取流程安裝自動(dòng)模塊,通過中的驅(qū)動(dòng)瀏覽器獲取登錄微信公眾號(hào)后臺(tái) 微信公眾平臺(tái)開發(fā)php
2022-11-09
爬取過程
安裝自動(dòng)模塊,通過驅(qū)動(dòng)瀏覽器登錄微信公眾號(hào)后臺(tái);
使用該功能需要安裝對(duì)應(yīng)瀏覽器的驅(qū)動(dòng)插件。
注意:谷歌瀏覽器版本對(duì)應(yīng)需求,否則啟動(dòng)時(shí)會(huì)報(bào)錯(cuò)。
微信公眾號(hào)登錄地址:
微信公眾號(hào)的文章界面地址可以在微信公眾號(hào)后臺(tái)創(chuàng)建,可以通過超鏈接功能獲取:
搜索公眾號(hào)名稱
獲取要爬取的公眾號(hào)
選擇要爬取的公眾號(hào),獲取文章接口地址
文章列表翻頁和內(nèi)容獲取
代理批次收集
1、微信客戶端:可以是安裝了微信應(yīng)用的手機(jī),也可以是電腦上的安卓模擬器。
2. 微信個(gè)人賬號(hào):要收集內(nèi)容,不僅需要微信客戶端,還需要微信個(gè)人賬號(hào)才能收集。
3.本地代理服務(wù)器系統(tǒng):將公眾號(hào)歷史消息頁中的文章列表通過代理服務(wù)器發(fā)送到自己的服務(wù)器。
4.文章列表分析存儲(chǔ)系統(tǒng),對(duì)文章列表進(jìn)行分析,建立采集隊(duì)列,實(shí)現(xiàn)內(nèi)容的批量采集。
設(shè)置代理并捕獲數(shù)據(jù)包
通過捕獲和分析多個(gè)賬戶,可以確定:
_biz:這個(gè)14位的字符串是每個(gè)公眾號(hào)的“id”,可以從搜狗的微信平臺(tái)獲取。
uin:與訪客相關(guān),微信ID
key:與訪問的公眾號(hào)相關(guān)
步:
1.編寫按鈕向?qū)_本,在手機(jī)端自動(dòng)點(diǎn)擊公眾號(hào)文章列表頁面,即“查看歷史新聞”;
2、使用代理劫持手機(jī)訪問php 微信公眾平臺(tái)開發(fā)教程,將URL轉(zhuǎn)發(fā)到php編寫的本地網(wǎng)頁;
3、將接收到的URL備份到php網(wǎng)頁上的數(shù)據(jù)庫(kù)中;
4. 用于從數(shù)據(jù)庫(kù)中檢索URL網(wǎng)站建設(shè),然后進(jìn)行正常爬取。
潛在問題:
如果只是想爬取文章的內(nèi)容,貌似沒有訪問頻率限制php 微信公眾平臺(tái)開發(fā)教程,但是如果想爬取閱讀點(diǎn)贊數(shù)網(wǎng)站建設(shè),在一定頻率之后,返回值就會(huì)變成空。
付費(fèi)平臺(tái)
例如,如果你只是想看數(shù)據(jù),你可以不花錢只看每日清單。如果你需要訪問自己的系統(tǒng),他們也提供了一個(gè)api接口
3 項(xiàng)目步驟
3.1 基本原則
目標(biāo)爬取網(wǎng)站收錄微信平臺(tái)大部分優(yōu)質(zhì)微信公眾號(hào)文章,會(huì)定期更新。經(jīng)過測(cè)試,發(fā)現(xiàn)對(duì)爬蟲更加友好。
1.網(wǎng)站頁面的排版和排版規(guī)則,不同公眾號(hào)通過鏈接區(qū)分
2.公眾號(hào)收藏下的文章也有定期翻頁:id號(hào)每翻一頁+12
所以過程思路是
獲取預(yù)查詢微信公眾號(hào)ID(不是直接顯示的名字,而是信息名片中的ID號(hào),一般由數(shù)字和字母組成)
請(qǐng)求一個(gè)html頁面判斷公眾號(hào)是否被收錄
如果不包含,頁面顯示結(jié)果為:404 頁面不存在,可以直接使用正則表達(dá)式匹配提示信息
正則匹配查找目標(biāo)公眾號(hào)收錄文章的最大頁數(shù)
解析請(qǐng)求的頁面,提取文章鏈接和標(biāo)題文本
保存信息提取結(jié)果
調(diào)用和轉(zhuǎn)換網(wǎng)頁
3.2 環(huán)境
()
(.6)
安裝轉(zhuǎn)換套件
3.3 公眾號(hào)信息檢索
通過向目標(biāo)url發(fā)起請(qǐng)求,獲取頁面的html信息,然后調(diào)用正則方法匹配兩條信息
1、公眾號(hào)是否存在?
2.如果存在,文章最多包含多少頁
當(dāng)公眾號(hào)存在時(shí),直接調(diào)用解析目標(biāo)請(qǐng)求鏈接。
注意一定要添加目標(biāo)爬蟲網(wǎng)站,否則會(huì)直接拒絕訪問
3.4 正則解析、提取鏈接和文章標(biāo)題
以下代碼用于從 html 文本中解析鏈接和標(biāo)題文本信息
3.5 自動(dòng)跳轉(zhuǎn)頁面
下面的代碼通過循環(huán)遞增賦值來改變url中的頁碼參數(shù)
3.6 去除標(biāo)題中的非法字符
因?yàn)閒ile命令,有些字符不能使用,所以需要使用正則剔除
itle = re.sub('[\\\\/:*?\"|]', '', info.loc[][''])
3.7 將html轉(zhuǎn)換為PDF
使用的函數(shù)讀取爬取的 csv 文件并循環(huán)通過“鏈接”、“標(biāo)題”、“日期”
然后調(diào)用函數(shù)轉(zhuǎn)換生成PDF文件
3.7 將html轉(zhuǎn)換為PDF
使用的函數(shù)讀取爬取的 csv 文件并循環(huán)通過“鏈接”、“標(biāo)題”、“日期”
然后調(diào)用函數(shù)轉(zhuǎn)換生成PDF文件
3.8 生成的 PDF 結(jié)果
4 結(jié)果顯示
???