Python實現(xiàn)抓取網(wǎng)頁并且解析的實例
來源:易賢網(wǎng) 閱讀:960 次 日期:2014-09-25 10:22:19
溫馨提示:易賢網(wǎng)小編為您整理了“Python實現(xiàn)抓取網(wǎng)頁并且解析的實例”,方便廣大網(wǎng)友查閱!

本文以實例形式講述了Python實現(xiàn)抓取網(wǎng)頁并解析的功能。主要解析問答與百度的首頁。分享給大家供大家參考之用。

主要功能代碼如下:

?123456789101112131415161718192021222324252627282930313233343536373839404142434445 #!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from urllib import quote import time maxline = 2000 wenda = re.compile("href=\""") baidu = re.compile("<a href=\"".*?>更多知道相關問題.*?</a>") f1 = open("baidupage.txt","w") f2 = open("wendapage.txt","w") for line in sys.stdin: if maxline == 0: break query = line.strip(); time.sleep(1); recall_url = "=" + query; response = urllib2.urlopen(recall_url); html = response.read(); f1.write(html) m = wenda.search(html); if m: if m.group(1) == "110": print query + "\twenda\t0"; else: print query + "\twenda\t1"; else: print query + "\twenda\t0"; recall_url = "=" + query +"&ie=utf-8"; response = urllib2.urlopen(recall_url); html = response.read(); f2.write(html) m = baidu.search(html); if m: print query + "\tbaidu\t1"; else: print query + "\tbaidu\t0"; maxline = maxline - 1; f1.close() f2.close()

更多信息請查看IT技術專欄

更多信息請查看腳本欄目
易賢網(wǎng)手機網(wǎng)站地址:Python實現(xiàn)抓取網(wǎng)頁并且解析的實例

2025國考·省考課程試聽報名

  • 報班類型
  • 姓名
  • 手機號
  • 驗證碼
關于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 加入群交流 | 手機站點 | 投訴建議
工業(yè)和信息化部備案號:滇ICP備2023014141號-1 云南省教育廳備案號:云教ICP備0901021 滇公網(wǎng)安備53010202001879號 人力資源服務許可證:(云)人服證字(2023)第0102001523號
聯(lián)系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關注公眾號:hfpxwx
咨詢QQ:526150442(9:00—18:00)版權所有:易賢網(wǎng)