python批量获取html内body内容的实例

 更新时间:2019年01月02日 08:42:01   作者:STKi  
今天小编就为大家分享一篇python批量获取html内body内容的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

现在有一批完整的关于介绍城市美食、景点等的html页面,需要将里面body的内容提取出来

方法:利用python插件beautifulSoup获取htmlbody标签的内容,并批量处理。

# -*- coding:utf8 -*-
 
from bs4 import BeautifulSoup
import os
import os.path
import sys
reload(sys) 
sys.setdefaultencoding('utf8') 
 
 
def printPath(level,path):
	global allFileNum
	#所有文件夹,第一个字段是此目录的级别
	dirList = []
 
	#所有文件
	fileList = []
 
	#返回一个列表,其中包含在目录条目的名称
	files = os.listdir(path)
 
	#先添加目录级别
	dirList.append(str(level))
 
	for f in files:
		if(os.path.isdir(path+'/'+f)):
			#排除隐藏文件夹,因为隐藏文件夹过多
			if(f[0] == '.'):
				pass
			else:
				#添加隐藏文件夹
				dirList.append(f)
		if(os.path.isfile(path+'/'+f)):
			#添加文件
			fileList.append(f)
	return (dirList,fileList)
 
#将文件html文件抓取并写入指定txt文件
def getAndInsert(rootdir,savepath,path):
	global file_num
	f_list = os.listdir(rootdir+'/'+path)
	for i in f_list:
		temp = os.path.splitext(i)[0]
		for num in range(1,11):
			if(i==str(num)+'.html'):
				#print rootdir+'/'+path+'/'+i
				objFile = open(rootdir+'/'+path+'/'+i)
				soup = BeautifulSoup(objFile)
				arr = []
				for child in soup.body:
					arr.append(child)
				if os.path.exists(savepath+'/'+path):
					pass
				else:
					os.makedirs(savepath+'/'+path)
				f = open(savepath+'/'+path+'/'+temp+'.txt','w')
				for k,v in enumerate(arr):
					if k!=1:
						f.write(str(v))
				f.close()
				print path+'/'+i+' is running'
	file_num = file_num + 1
			
 
rootdir = '../zips2'
dirList,fileList = printPath(1,rootdir)
 
savepath = "../testC"
file_num = 0
 
for fn in dirList:
	if(fn == '1'):
		pass
	else:
		getAndInsert(rootdir,savepath,fn)
		print fn+' is ending'
print '一共完成'+str(file_num)+'个城市的提取'

以上这篇python批量获取html内body内容的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python使用正则表达式过滤或替换HTML标签的方法详解

    Python使用正则表达式过滤或替换HTML标签的方法详解

    这篇文章主要介绍了Python使用正则表达式过滤或替换HTML标签的方法,简单介绍了Python正则相关语法并结合具体实例形式分析了Python基于正则表达式的HTML标签过滤与替换相关操作技巧,需要的朋友可以参考下
    2017-09-09
  • Python脚本实现抓取指定网站上的所有图片

    Python脚本实现抓取指定网站上的所有图片

    对于开发者、数据分析师以及研究人员而言,从网页中提取有价值的信息是一项至关重要的技能,本文将详细介绍如何使用Python编写一个脚本来自动抓取指定网站上的所有图片,需要的可以参考下
    2024-10-10
  • scrapy-redis分布式爬虫的搭建过程(理论篇)

    scrapy-redis分布式爬虫的搭建过程(理论篇)

    这篇文章主要介绍了scrapy-redis分布式爬虫的搭建过程(理论篇),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • 图文详解Python中模块或py文件导入(超详细!)

    图文详解Python中模块或py文件导入(超详细!)

    导入文件目的就是为了执行文件,下面这篇文章主要给大家介绍了关于Python中模块或py文件导入的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-04-04
  • Python实现mysql数据库中的SQL文件生成和导入

    Python实现mysql数据库中的SQL文件生成和导入

    这篇文章主要介绍了Python实现mysql数据库中的SQL文件生成和导入,首先通过将mysql数据导出到SQL文件中展开详细内容需要的小伙伴可以参考一下
    2022-06-06
  • Python中turtle.write方法使用说明

    Python中turtle.write方法使用说明

    turtle模块以面向对象和面向过程的方式提供turtle图形基元,由于它使用Tkinter作为基础图形,因此需要安装有Tk支持的Python版本,下面这篇文章主要给大家介绍了关于Python中turtle.write方法使用说明的相关资料,需要的朋友可以参考下
    2022-02-02
  • python实现web方式logview的方法

    python实现web方式logview的方法

    这篇文章主要介绍了python实现web方式logview的方法,涉及Python基于web模块操作Linux命令的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-08-08
  • python自动生成model文件过程详解

    python自动生成model文件过程详解

    这篇文章主要介绍了python自动生成model文件过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值
    2019-11-11
  • Python编写春联的示例代码(支持行书隶书楷书)

    Python编写春联的示例代码(支持行书隶书楷书)

    这篇文章主要介绍了如何通过Python代码编写春联,其中春联字体支持行书隶书楷书。文中的示例代码讲解详细,感兴趣的小伙伴可以动手试一试
    2022-01-01
  • 用Python编写一个漏洞验证脚本

    用Python编写一个漏洞验证脚本

    大家好,本篇文章主要讲的是用Python编写一个漏洞验证脚本,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02

最新评论