python批量获取html内body内容的实例

更新时间：2019年01月02日 08:42:01 作者：STKi

今天小编就为大家分享一篇python批量获取html内body内容的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

现在有一批完整的关于介绍城市美食、景点等的html页面，需要将里面body的内容提取出来

方法：利用python插件beautifulSoup获取htmlbody标签的内容，并批量处理。

# -*- coding:utf8 -*-
 
from bs4 import BeautifulSoup
import os
import os.path
import sys
reload(sys) 
sys.setdefaultencoding('utf8') 
 
 
def printPath(level,path):
	global allFileNum
	#所有文件夹，第一个字段是此目录的级别
	dirList = []
 
	#所有文件
	fileList = []
 
	#返回一个列表，其中包含在目录条目的名称
	files = os.listdir(path)
 
	#先添加目录级别
	dirList.append(str(level))
 
	for f in files:
		if(os.path.isdir(path+'/'+f)):
			#排除隐藏文件夹，因为隐藏文件夹过多
			if(f[0] == '.'):
				pass
			else:
				#添加隐藏文件夹
				dirList.append(f)
		if(os.path.isfile(path+'/'+f)):
			#添加文件
			fileList.append(f)
	return (dirList,fileList)
 
#将文件html文件抓取并写入指定txt文件
def getAndInsert(rootdir,savepath,path):
	global file_num
	f_list = os.listdir(rootdir+'/'+path)
	for i in f_list:
		temp = os.path.splitext(i)[0]
		for num in range(1,11):
			if(i==str(num)+'.html'):
				#print rootdir+'/'+path+'/'+i
				objFile = open(rootdir+'/'+path+'/'+i)
				soup = BeautifulSoup(objFile)
				arr = []
				for child in soup.body:
					arr.append(child)
				if os.path.exists(savepath+'/'+path):
					pass
				else:
					os.makedirs(savepath+'/'+path)
				f = open(savepath+'/'+path+'/'+temp+'.txt','w')
				for k,v in enumerate(arr):
					if k!=1:
						f.write(str(v))
				f.close()
				print path+'/'+i+' is running'
	file_num = file_num + 1
			
 
rootdir = '../zips2'
dirList,fileList = printPath(1,rootdir)
 
savepath = "../testC"
file_num = 0
 
for fn in dirList:
	if(fn == '1'):
		pass
	else:
		getAndInsert(rootdir,savepath,fn)
		print fn+' is ending'
print '一共完成'+str(file_num)+'个城市的提取'

以上这篇python批量获取html内body内容的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python使用正则表达式过滤或替换HTML标签的方法详解
这篇文章主要介绍了Python使用正则表达式过滤或替换HTML标签的方法,简单介绍了Python正则相关语法并结合具体实例形式分析了Python基于正则表达式的HTML标签过滤与替换相关操作技巧,需要的朋友可以参考下
2017-09-09
Python脚本实现抓取指定网站上的所有图片
对于开发者、数据分析师以及研究人员而言,从网页中提取有价值的信息是一项至关重要的技能,本文将详细介绍如何使用Python编写一个脚本来自动抓取指定网站上的所有图片,需要的可以参考下
2024-10-10
scrapy-redis分布式爬虫的搭建过程(理论篇)
这篇文章主要介绍了scrapy-redis分布式爬虫的搭建过程(理论篇)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
图文详解Python中模块或py文件导入(超详细!)
导入文件目的就是为了执行文件,下面这篇文章主要给大家介绍了关于Python中模块或py文件导入的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-04-04
Python实现mysql数据库中的SQL文件生成和导入
这篇文章主要介绍了Python实现mysql数据库中的SQL文件生成和导入，首先通过将mysql数据导出到SQL文件中展开详细内容需要的小伙伴可以参考一下
2022-06-06
Python中turtle.write方法使用说明
turtle模块以面向对象和面向过程的方式提供turtle图形基元,由于它使用Tkinter作为基础图形,因此需要安装有Tk支持的Python版本,下面这篇文章主要给大家介绍了关于Python中turtle.write方法使用说明的相关资料,需要的朋友可以参考下
2022-02-02
python实现web方式logview的方法
这篇文章主要介绍了python实现web方式logview的方法,涉及Python基于web模块操作Linux命令的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-08-08
python自动生成model文件过程详解
这篇文章主要介绍了python自动生成model文件过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值
2019-11-11
Python编写春联的示例代码(支持行书隶书楷书)
这篇文章主要介绍了如何通过Python代码编写春联，其中春联字体支持行书隶书楷书。文中的示例代码讲解详细，感兴趣的小伙伴可以动手试一试
2022-01-01
用Python编写一个漏洞验证脚本
大家好，本篇文章主要讲的是用Python编写一个漏洞验证脚本，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02

python批量获取html内body内容的实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具