php获取网页标题和内容函数(不包含html标签)

更新时间：2014年02月03日 13:50:51 作者：

有时候我们需要获取网页的标题与内容，就是个采集函数，这里简单分享下，方便需要的朋友

function getPageContent($url) {   

        //$url='http://www.ttphp.com;   

        $pageinfo = array();   
        $pageinfo[content_type] = '';   
        $pageinfo[charset] = '';   
        $pageinfo[title] = '';   
        $pageinfo[description] = '';   
        $pageinfo[keywords] = '';   
        $pageinfo[body] = '';   
        $pageinfo['httpcode'] = 200;   
        $pageinfo['all'] = '';    

        $ch = curl_init();   
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");   
        curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);   
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);   
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER,0);   
        curl_setopt($ch, CURLOPT_TIMEOUT, 8);   
        curl_setopt($ch, CURLOPT_FILETIME, 1);   
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);   
        //curl_setopt($ch, CURLOPT_HEADER, 1);         
        curl_setopt($ch, CURLOPT_URL,$url);   

        $curl_start = microtime(true);   
        $store = curl_exec ($ch);   

        $curl_time = microtime(true) - $curl_start;   
        if( curl_error($ch) ) {   
            $pageinfo['httpcode'] = 505;  //gate way error   
            echo 'Curl error: ' . curl_error($ch) ."/n";   
            return $pageinfo;   
        }   

        //print_r(curl_getinfo($ch));   
        $pageinfo['httpcode'] = curl_getinfo($ch,CURLINFO_HTTP_CODE);   
        //echo curl_getinfo($ch,CURLINFO_CONTENT_TYPE)."/n";   
        $pageinfo[content_type] = curl_getinfo($ch,CURLINFO_CONTENT_TYPE);   
        if(intval($pageinfo['httpcode']) <> 200 or !preg_match('@text/html@',curl_getinfo($ch,CURLINFO_CONTENT_TYPE) )   ) {   
                //print_r(curl_getinfo($ch) );   
                //exit;   
                return $pageinfo;   
        }   
        preg_match('/charset=([^/s/n/r]+)/i',curl_getinfo($ch,CURLINFO_CONTENT_TYPE),$matches); //从header 里取charset   
        if( trim($matches[1]) ) {   
            $pageinfo[charset] = trim($matches[1]);   
        }   
        //echo $pageinfo[charset];   
        //exit;   
        curl_close ($ch);   
        //echo $store;   

  
        //remove javascript   
        $store = preg_replace("/<mce:script.*><!--
(.*)<//script>/smUi",'',$store);   
        //remove link    
        $store = preg_replace("/<link/s+[^>]+>/smUi",'',$store);   
        //remove <!--  -->   
        $store = preg_replace("/<!--.*-->/smUi",'',$store);   
        //remove <style  </<style>   
        $store = preg_replace("/<style.*>(.*)<//style>/smUi",'',$store);   
        //remove 中文空格   
        $store = preg_replace("/　/",'',$store);   
        //remove 标点符号   
        //$store = preg_replace("/[/~`!@#$%^&*()_/-+={}|/[/]//;':"/</>/?/,/.//]/",'',$store);   

           
        //preg_match("/<head.*>(.*)<//head>/smUi",$store, $matches);   
        //$head = $matches[1];   
        //echo $head. "/n";   

        //charset   
        if($pageinfo[charset] == '' ) {  
            preg_match('@<meta.+charset=([/w/-]+)[^>]*>@i',$store,$matches);  
            $pageinfo[charset] = trim($matches[1]);  
        }  
        //desctiption  
        preg_match('@<meta/s+name=/"*description/"*/s+content/s*=/s*([^/>]+)/*>@i',$store,$matches);  
        //print_r($matches);  
        $desc = trim($matches[1]);  
        $pageinfo[description] = str_replace("/"", '',$desc);  

 
        preg_match('@<meta/s+name=/"*keywords/"*/s+content/s*=/s*([^/>]+)/*>@i',$store,$matches);  
        //print_r($matches);  
        $keywords = trim($matches[1]);  
        $pageinfo[keywords] = str_replace("/"", '',$keywords);  

          
        preg_match("/<title>(.*)<//title>/smUi",$store, $matches);  
        $pageinfo[title] = trim($matches[1]);  

        preg_match("/<body.*>(.*)<//body>/smUi",$store, $matches);  
        $pageinfo[body] = addslashes( replaceHtmlAndJs($matches[1]) ) ;  
        $pageinfo['all'] = addslashes( replaceHtmlAndJs($store) ) ;  

        //echo "charset = " . $pageinfo[charset] . "/n";  

        //print_r($pageinfo);  
        //exit;  

          
        return $pageinfo;  

}  

/**  
 * 去掉所有的HTML标记和JavaScript标记  
 */  
function replaceHtmlAndJs($document)   
{   
         $document = trim($document);   
         if (strlen($document) <= 0)   
         {   
          return $document;   
         }   
         $search = array (         
                                            "'<script[^>]*?>.*?
// --></mce:script>'si",  // 去掉 javascript   
                          "'<[///!]*?[^<>]*?>'si",          // 去掉 HTML 标记   
                          "'[/r/n/s+]'",                // 去掉空白字符   
                          "'&(/w+);'i"              // 替换 HTML 实体   
                         );                    // 作为 PHP 代码运行   

         $replace = array ( "", "", "", ""  );   

         return @preg_replace ($search, $replace, $document);   

}  

使用例子

复制代码代码如下:

$a = getPageContent(www.ttphp.com);   
print_r($a); 

您可能感兴趣的文章:

php正则校验用户名介绍
用户名可以是字符-和.方便
2008-07-07
PHP面向对象类型约束用法分析
这篇文章主要介绍了PHP面向对象类型约束用法,结合实例形式分析了php在面向对象程序设计中使用类型约束的原理与相关操作技巧,需要的朋友可以参考下
2019-06-06
10条PHP编程习惯助你找工作
本文来自于作者的一段面试经历，从而总结出10条编写PHP程序时的好习惯和技巧，帮助你在找工作时获得更多的优势。
2008-09-09
从手册去理解分析PHP session机制
session_start()是session机制的开始，它有一定概率开启垃圾回收,因为session是存放在文件中，PHP自身的垃圾回收是无效的，SESSION的回收是要删文件的，这个概率是根据php.ini的配置决定的
2011-07-07
PHP使用gearman进行异步的邮件或短信发送操作详解
这篇文章主要介绍了PHP使用gearman进行异步的邮件或短信发送操作,总结分析了PHP基于gearman实现异步的邮件或短信发送相关配置、启动与操作注意事项,需要的朋友可以参考下
2020-02-02
什么情况下可以不写PHP的闭合标签“?>”
这篇文章主要介绍了什么情况下可以不写PHP的闭合标签“?>”,是进行PHP程序开发需要特别注意的地方,需要的朋友可以参考下
2014-08-08
Windows下编译PHP5.4和xdebug全记录
这篇文章主要介绍了Windows下编译PHP5.4和xdebug全记录,本文讲解了编译环境以及相关软件包、编译过程、编译中可能出现的错误问题处理等内容,需要的朋友可以参考下
2015-04-04
php 解决扫描二维码下载跳转问题
这篇文章主要介绍了php 解决扫描二维码下载跳转问题的相关资料,需要的朋友可以参考下
2017-01-01
PHP数组及条件,循环语句学习
PHP数组及条件,循环语句学习,需要的朋友可以参考下
2012-11-11
在WordPress中实现发送http请求的相关函数解析
这篇文章主要介绍了在WordPress中实现发送http请求的相关函数解析,包括使用WP_Http类中的函数来发送post或get请求的方法,需要的朋友可以参考下
2015-12-12

php获取网页标题和内容函数(不包含html标签)

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具