测试、预发布后用python检测网页是否有日常链接

所属分类：脚本专栏 / python 阅读数： 1827

收藏 0赞 0分享

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况，开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具，导致没有及时发现，由于最近正好在看python，后来处理完回家就想用python做个简单的监控。

大略思路是：用python写一个脚本来分析网页里的所有url，看是否包含日常的链接，然后把脚本放到crontab里跑定时任务，10分钟跑一次检查。如果发现非法链接，就发告警邮件给相关人员。脚本代码100行左右，比较好理解，贴上代码。

本来想用beautifulsoup，不过考虑到安装三方库麻烦，所以还是用自带的sgmllib来，不需要关心库。发邮件函数没有实现，根据各自的smtp服务器实现以下即可。

复制代码代码如下:

 
#!/usr/bin/env python 
#coding:UTF-8 

import urllib2 
from sgmllib import SGMLParser 
import smtplib 
import time 
#from email.mime.text import MIMEText 
#from bs4 import BeautifulSoup 
#import re 

class UrlParser(SGMLParser): 
urls = [] 
def do_a(self,attrs): 
'''''parse tag a''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value) 
else: 
continue 

def do_link(self,attrs): 
'''''parse tag link''' 
for name,value in attrs: 
if name=='href': 
self.urls.append(value); 
else: 
continue 

def checkUrl(checkurl, isDetail): 
'''''检查checkurl对应的网页源码是否有非法url''' 
parser = UrlParser() 
page = urllib2.urlopen(checkurl) 
content = page.read() 
#content = unicode(content, "gb2312").encode("utf8") 
parser.feed(content) 
urls = parser.urls 

dailyUrls = [] 
detailUrl = "" 
for url in urls: 
if 'daily' in url: 
dailyUrls.append(url); 
if not detailUrl and not isDetail and 'www.bc5u.com' in url: 
detailUrl = url 

page.close() 
parser.close() 

if isDetail: 
return dailyUrls 
else: 
return dailyUrls,detailUrl 

def sendMail(): 
'''''发送提醒邮件''' 
pass 

def log(content): 
'''''记录执行日志''' 
logFile = 'checkdailyurl.log' 
f = open(logFile,'a') 
f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n') 
f.flush() 
f.close() 

def main(): 
'''''入口方法''' 
#检查ju 
url = "www.bc5u.com" 

dailyUrls,detailUrl=checkUrl(url, False) 
if dailyUrls: 
#检查到daily链接，发送告警邮件 
sendMail() 
log('check: find daily url') 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

#检查judetail 
dailyUrls=checkUrl(detailUrl, True) 
if dailyUrls: 
#检查到daily链接，发送告警邮件 
log('check: find daily url') 
sendMail() 
else: 
#没检查到daily链接，不处理 
log('check: not find daily url') 

if __name__ == '__main__': 
main() 

更多精彩内容其他人还在看

测试、预发布后用python检测网页是否有日常链接

pandas的qcut()方法详解

从列表或字典创建Pandas的DataFrame对象的方法

pandas.DataFrame的pivot()和unstack()实现行转列

pandas中的series数据类型详解

pandas 时间格式转换的实现

python中时间、日期、时间戳的转换的实现方法

pandas进行时间数据的转换和计算时间差并提取年月日

详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法

python和c语言的主要区别总结

选择Python写网络爬虫的优势和理由

网络赚钱

站长故事