ASP获取网页全部图片地址并保存为数组的正则

所属分类: 网络编程 / ASP编程 阅读数: 1196
收藏 0 赞 0 分享
目前还是有BUG的,最新的测试页面在: http://www.reallydo.com/getimg.asp
正则分析页面在: http://jorkin.reallydo.com/article.asp?id=380 
发现BUG请在后面留言,谢谢.
1.31修正
src=后面有空格不能正确匹配.已修正.
src=''为空时出错.已修正.
发现BUG: 图片路径有多个空格时只能保留一个.未修正.
2.18修正
图片路径有多个空格时只能保留一个的BUG.已修正.
复制代码 代码如下:

<% 
'功能:获取全部图片地址,保存到一个数组. 
'来源:http://jorkin.reallydo.com/article.asp?id=448 
'需要ReplaceAll函数:http://jorkin.reallydo.com/article.asp?id=406 

Function getIMG(sString) 
    Dim sReallyDo, regEx, iReallyDo 
    Dim oMatches, cMatch 
    '//定义一个空数组 
    iReallyDo = -1 
    ReDim aReallyDo(iReallyDo) 
    If IsNull(sString) Then 
        getIMG = "" 
        Exit Function 
    End If 
    '//格式化HTML代码 
    '//将每个 <img 换行 方便正则替换 
    sReallyDo = sString 
    On Error Resume Next 
    sReallyDo = Replace(sReallyDo, vbCr, " ") 
    sReallyDo = Replace(sReallyDo, vbLf, " ") 
    sReallyDo = Replace(sReallyDo, vbTab, " ") 
    sReallyDo = Replace(sReallyDo, "<img ", vbCrLf & "<img ", 1, -1, 1) 
    sReallyDo = Replace(sReallyDo, "/>", " />", 1, -1, 1) 
    sReallyDo = ReplaceAll(sReallyDo, "= ", "=", True) 
    sReallyDo = ReplaceAll(sReallyDo, "> ", ">", True) 
    sReallyDo = Replace(sReallyDo, "><", ">" & vbCrLf & "<") 
    sReallyDo = Trim(sReallyDo) 
    On Error GoTo 0 
    Set regEx = New RegExp 
    regEx.IgnoreCase = True 
    regEx.Global = True 
    '//去除onclick,onload等脚本 
    regEx.Pattern = "\s[on].+?=([\""|\'])(.*?)\1" 
    sReallyDo = regEx.Replace(sReallyDo, "") 
    '//将SRC不带引号的图片地址加上引号 
    regEx.Pattern = "<img.*?\ssrc=([^\""\'\s][^\""\'\s>]*).*?>" 
    sReallyDo = regEx.Replace(sReallyDo, "<img src=""$1"" />") 
    '//正则匹配图片SRC地址 
    regEx.Pattern = "<img.*?\ssrc=([\""\'])([^\""\']+?)\1.*?>" 
    Set oMatches = regEx.Execute(sReallyDo) 
    '//将图片地址存入数组 
    For Each cMatch in oMatches 
        iReallyDo = iReallyDo + 1 
        ReDim Preserve aReallyDo(iReallyDo) 
        aReallyDo(iReallyDo) = regEx.Replace(cMatch.Value, "$2") 
    Next 
    getIMG = aReallyDo 
End Function 
%> 
更多精彩内容其他人还在看

IIS访问ASP页面时报错The requested resource is in use.的解决办法

IIS访问ASP页面时报错The requested resource is in use.的解决办法
收藏 0 赞 0 分享

错误类型:Provider (0x80004005)未指定的错误 的一个处理方法

一般情况下asp可以正常运行,但只要连接数据库就提示,Microsoft JET Database Engine 错误'80004005'
收藏 0 赞 0 分享

关于“未指定的错误”的问题 的比较正解的解决方法

关于“未指定的错误”的问题 的比较正解的解决方法
收藏 0 赞 0 分享

关于asp+access的安全问题分析

关于asp+access的安全问题分析
收藏 0 赞 0 分享

把RS.GetRows看得更清楚

把RS.GetRows看得更清楚
收藏 0 赞 0 分享

ASP面向对象编程探讨及比较

ASP面向对象编程探讨及比较
收藏 0 赞 0 分享

ASP错误处理

ASP错误处理
收藏 0 赞 0 分享

web文件管理器的后续开发

web文件管理器的后续开发
收藏 0 赞 0 分享

上一篇,下一篇过程代码

上一篇,下一篇过程代码
收藏 0 赞 0 分享

一小偷类!!有兴趣的可以看看

一小偷类!!有兴趣的可以看看
收藏 0 赞 0 分享
查看更多