三种获取网页源码的方法(使用MFC/Socket实现)

更新时间：2013年12月22日 09:53:49 作者：

Windows下比较简单的获取网页源码的方法：使用MFC、使用MFC、Socket实现

第一个方法是使用MFC里面的

<afxinet.h>

CString GetHttpFileData(CString strUrl)
{
     CInternetSession Session("Internet Explorer", 0);
     CHttpFile *pHttpFile = NULL;
     CString strData;
     CString strClip;
     pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);
    while ( pHttpFile->ReadString(strClip) )
     {
      strData += strClip;
      }
     return strData;
}

要讲一下，pHttpFile->ReadString() 每次可能只读一个数据片断，读多少次取决于网络状况，所以要把每次读到的数据加到总数据的尾部，用了CString 省去了缓冲区处理:)
别忘了包含头文件#include <afxinet.h> 在工程设置，里面要选择 using MFC 要不然编译不了

第二种是使用WinNet的纯API实现的

复制代码代码如下:

#define MAXBLOCKSIZE 1024
#include <windows.h>
#include <wininet.h>

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])
{
GetWebSrcCode("https://www.jb51.net/");

return 0;
}

void GetWebSrcCode(const char *Url)
{
    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
    if (hSession != NULL)
    {
        HINTERNET hURL = InternetOpenUrl(hSession, Url, NULL, 0, INTERNET_FLAG_DONT_CACHE, 0);
        if (hURL != NULL)
        {
            char Temp[MAXBLOCKSIZE] = {0};
            ULONG Number = 1;

            FILE *stream;
            if( (stream = fopen( "E:\\test.html", "wb" )) != NULL )
            {
                while (Number > 0)
                {
                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - 1, &Number);
                    fwrite(Temp, sizeof (char), Number , stream);
                }
                fclose( stream );
            }

            InternetCloseHandle(hURL);
            hURL = NULL;
        }

        InternetCloseHandle(hSession);
        hSession = NULL;
    }
}

第三种就是使用非封装过的Socket实现了

复制代码代码如下:

int main(int argc, char* argv[])
{
    SOCKET hsocket;
    SOCKADDR_IN saServer;
    WSADATA wsadata;
    LPHOSTENT lphostent;
    int nRet;
    char Dest[3000];
    char* host_name="blog.sina.com.cn";
    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1\r\n"
        "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r\n"
        "Host:blog.sina.com.cn\r\n\r\n";

    // 初始化套接字
    if(WSAStartup(MAKEWORD(2,2),&wsadata))
        printf("初始化SOCKET出错！");
    lphostent=gethostbyname(host_name);
    if(lphostent==NULL)
        printf("lphostent为空！");
    hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);
    saServer.sin_family = AF_INET;
    saServer.sin_port = htons(80);
    saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list);
    // 利用SOCKET连接
    nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN));
    if(nRet == SOCKET_ERROR)
    {
        printf("建立连接时出错！");
        closesocket(hsocket);
        return 0;
    }
    // 利用SOCKET发送

    nRet = send(hsocket,req,strlen(req),0);
    if(nRet==SOCKET_ERROR)
    {
        printf("发送数据包时出错！");
        closesocket(hsocket);
    }
    nRet=1;
    while(nRet>0)
    {
        // 接收返回数据包
        nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),0);
        if(nRet>0)
            Dest[nRet]=0;
        else
            Dest[0]=0;
        char sDest[3000] = {0};
        UTF8_2_GB2312(sDest,nRet,Dest,nRet);
        // 显示返回数据包的大小、内容
        //printf("\nReceived bytes:%d\n",nRet);
        printf("Result:\n%s",sDest);
    }
}

另外，以上我们获取网页的时候，获取到的可能是UTF8，似乎目前大多数网站都用的这种编码吧！下面是编码转换。

复制代码代码如下:

void UTF_8ToUnicode(wchar_t* pOut,char *pText)
{   
    char* uchar = (char *)pOut; 
    uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
    uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F); 
} 
void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer) 
{   
    ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
} 
void UTF_8ToGB2312(char*pOut, char *pText, int pLen)  
{   
    char Ctemp[4];   
    memset(Ctemp,0,4); 
    int i =0 ,j = 0; 
    while(i < pLen) 
    {  
        if(pText[i] >= 0)  
        {  
            pOut[j++] = pText[i++]; 
        } 
        else 
        {  
            WCHAR Wtemp; 
            UTF_8ToUnicode(&Wtemp,pText + i);
            UnicodeToGB2312(Ctemp,Wtemp); 
            pOut[j] = Ctemp[0];
            pOut[j + 1] = Ctemp[1];  
            i += 3;   
            j += 2;  
        }   
    } 
    pOut[j] ='\n'; 
    return; 
}

这是是转换成GB2312的代码

您可能感兴趣的文章:

获取网页源码

C++实现LeetCode(137.单独的数字之二)
这篇文章主要介绍了C++实现LeetCode(137.单独的数字之二),本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-07-07
ESP32CAM摄像头图像实时传输的配置详解
这篇文章主要介绍了ESP32CAM摄像头图像实时传输,本文通过截图示例代码相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-05-05
C语言中递归和排列组合详解
大家好，本篇文章主要讲的是C语言中递归和排列组合详解，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2022-01-01
C++超详细讲解拷贝构造函数
我们经常会用一个变量去初始化一个同类型的变量，那么对于自定义的类型也应该有类似的操作，那么创建对象时如何使用一个已经存在的对象去创建另一个与之相同的对象呢
2022-06-06
详解C++ sizeof（下）
这篇文章主要介绍了C++ sizeof的相关资料，帮助大家更好的理解和学习c++，感兴趣的朋友可以了解下
2020-08-08
C/C++获取当前时间的方法总结(最全)
这篇文章主要为大家整理了C/C++中获取当前时间的最全方法，文中的示例代码讲解详细，具有一定的学习和借鉴价值，需要的可以了解一下
2023-03-03
C++ OpenCV读写XML或YAML文件的方法详解
XML是一种元标记语言。所谓元标记，就是开发者可以根据自身需要定义自己的标记。YAML是一个可读性高，用来表达资料序列的格式。本文将通过C++和OpenCV实现这两种文件的读写，需要的可以参考一下
2022-05-05
基于一个简单定长内存池的实现方法详解
本篇文章对一个简单定长内存池的实现方法进行了详细的分析介绍。需要的朋友参考下
2013-05-05
C++实现基于控制台界面的吃豆子游戏
这篇文章主要介绍了C++实现基于控制台界面的吃豆子游戏,实例分析了吃豆子游戏的原理与C++实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-04-04
利用C语言结构体实现通讯录
这篇文章主要为大家详细介绍了利用C语言结构体实现通讯录，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-01-01

三种获取网页源码的方法(使用MFC/Socket实现)

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具