目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问 弊端: 1、此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数。 2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件 采集对策:只能放慢采集速度,...
http://www.jb51.net//article/491.htm
采集原理: 采集程序的主要步骤如下: 一、获取被采集的页面的内容 二、从获取代码中提取所有用的数据 一、获取被采集的页面的内容 我目前所掌握的ASP常用获取被采集的页面的内容方法: 1、用serverXMLHTTP组件获取数据FunctionGetBody(weburl) ’-----------------翟振恺(小琦) ’创建对象 &n...
http://www.jb51.net//article/490.htm
[code]function HTMLEncode(fString)if not isnull(fString) thenfString = replace(fString, ">", ">")fString = replace(fString, "<", "<")fString = Replace(fString, CHR(32), " ")fString =&nbs...
http://www.jb51.net//article/481.htm
XMLHTTP应用参考 一、使用步骤: 1、创建XMLHTTP对象 //需MSXML4.0支持 2、打开与服务端的连接,同时定义指令发送方式,服务网页(URL)和请求权限等。客户端通过Open命令打开与服务端的服务网页的连接。与普通HTTP指令传送一样,可以用"GET"方法或"POST"方法指向服务端的服务网页。 3、发送指令。 4、等待并接收服务端返回的处理结果。 5、释放XMLHTTP对象 二、XMLHTTP方法: 1、XMLHTTP对象 备注:客户机可以使用XMLHTTP对象发送任意的HT...
http://www.jb51.net//article/406.htm
正则表达式类【1】 正则表达式应用——替换指定内容到行尾【2】 正则表达式应用——数字替换----------------------------Microshaoft@CCF,jiuk2k@CCF【3】 正则表达式应用——删除每一行行尾的指定字符 【4】 正则表达式应用——替换带有半角括号的多行--------------lucida@DRL【5】 正则表达式应用——删除空行----------------------------江德华软件技巧类--------------------------------------...
http://www.jb51.net//article/356.htm
用 INNER JOIN语法联接多个表建记录集多表联接建立记录集是十分有用的,因为某些情况下,我们需要把数字数据类型显示为相应的文本名称,这就遇到了多表联接建立记录集的问题。比如作一个会员注册系统,共有五个表,会员信息数据表member、会员身份表MemberIdentity、会员权限表MemberLevel、会员类别表MemberSort和会员婚姻状况表Wedlock。如果想把会员注册信息全部显示出来,肯定要将这四个表连起来,否则大家看到的某些会员信息可能只是数据编号。 以会员类别表来说,在其数据表中,1代表普通会员,2代表高...
http://www.jb51.net//article/332.htm
落伍的贴也看了很多了,发现了很多讲小偷技术的,如精华贴里的--小偷程序原理和简单示例:[url]http://www.im286.com/viewthread.php?tid=407182&extra=page%3D1[/url] 等等,也有提供采集程序下载的,但我还没看到一篇完整的入库的文章,或许是我看的贴少吧。虽然不是很深奥,我还是讲讲吧,希望高手别见笑啦,以前发了个原创的影视系统,却没落伍,这次再求落伍啦,希望大家帮顶下,也希望我能落伍!!入库也和小偷一样,要先得到需入库的部分,我这里以[url]http://www.skycn.com/article/77...
http://www.jb51.net//article/247.htm
现在网上的采集程序很多,但是有时候你发现一个好的网站,想自己做个采集工具采集一些信息,就需要自己去写程序了,其实这样的采集程序并不难写,主要是去分析源网站的网页结构。首先去下载个XMLHTTP的类文件:<%Classxhttpprivatecset,sUrl,sErrorPrivateSubClass_Initialize()'cset="UTF-8"cset="GB2312"sError=""endsubPrivateSubClass_Terminate()EndSubPublicPropertyLETURL(theurl)sUrl=theurlendpropertypublicpro...
http://www.jb51.net//article/202.htm
<%'声明取得目标信息的函数,通过XML组件进行实现。FunctionGetURL(url)SetRetrieval=CreateObject("Microsoft.XMLHTTP")WithRetrieval.Open"GET",url,False.SendGetURL=bytes2bstr(.responsebody)'对取得信息进行验证,如果信息长度小于100则说明截取失败iflen(.responsebody)<100thenresponse.write"获取远程文件<ahref="&url&"target=_blank>"&url&am...
http://www.jb51.net//article/183.htm
<%@LANGUAGE="JScript" CODEPAGE="936"%><script language=VBScript runat="Server">Function bytes2BSTR(vIn) strReturn = "" For i = 1 To LenB(vIn) &nbs...
http://www.jb51.net//article/182.htm
’*****************************************************************’ function’ 作用 :利用流保存文件’ 参数 :from(远程文件地址),tofile(保存文件位置)’*****************************************************************Private Function SaveFiles(byref from,byref tofile)Dim DatasDa...
http://www.jb51.net//article/181.htm
