python对网页文本的格式化实例方法

更新时间：2021年10月12日 08:37:22 作者：小妮浅浅

在本篇文章里小编给大家整理是一篇关于python对网页文本的格式化实例方法，有兴趣的朋友们可以跟着学习参考下。

1、一个网页通常包含文本信息。对于不同的文本类型，我们可以选择合适的HTML语义元素进行标记。

2、em元素用于标记和强调部分内容，small元素用于注释和署名文本。

实例

<body>
    <h1>论语学而篇第一</h1>
    <p><small>
    <b>作者：</b><abbr title="名丘，字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>（<time>前551年9月28日－前479年4月11日</time>）
    </small></p>
    <h2>本篇引语</h2>
    <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章，内容涉及诸多方面。其中重点是
     <strong>「吾日三省吾身」；「节用而爱人，使民以时」；「礼之用，和为贵」以及仁、孝、信等</strong>道德范畴。</p>
    <h2>原文</h2>
    <p>子曰：「<mark>学而时习之，不亦说乎？</mark>有朋自远方来，不亦乐乎？人不知，而不愠，不亦君子乎？」 </p>
  </body>

知识点扩展：

Python int与string之间的转化

string–>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

int–>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候，只是在页面后面多了一个“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后，可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20页的内容，可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容，更多关于python爬虫中网页文本的格式化的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

JetBrains PyCharm（Community版本）的下载、安装和初步使用图文教程详解
这篇文章主要介绍了JetBrains PyCharm（Community版本）的下载、安装和初步使用教程，本文图文并茂给大家介绍的非常详细，对大家的学习和工作具有一定的参考借鉴价值 ,需要的朋友可以参考下
2020-03-03
Python装饰器decorator用法实例
这篇文章主要介绍了Python装饰器decorator用法,以实例形式详细讲述了Python装饰器及相关概念与用途,需要的朋友可以参考下
2014-11-11
Python基础之hashlib模块subprocess模块logging模块
这篇文章主要为大家介绍了Python基础之hashlib模块subprocess模块logging模块示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-11-11
Python运维自动化之nginx配置文件对比操作示例
这篇文章主要介绍了Python运维自动化之nginx配置文件对比操作,涉及Python针对文件的读取、遍历、比较进而达到差异对比的相关操作技巧,需要的朋友可以参考下
2018-08-08
使用numpy和PIL进行简单的图像处理方法
今天小编就为大家分享一篇使用numpy和PIL进行简单的图像处理方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
用Python实现BP神经网络（附代码）
这篇文章主要介绍了用Python实现BP神经网络（附代码），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
pandas添加自增列的2种实现方案
这篇文章主要介绍了pandas添加自增列的2种实现方案，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
python库geopandas读取写入空间数据及绘图实例探索
这篇文章主要为大家介绍了python库geopandas读取写入空间数据及绘图实例探索,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪<BR>
2024-02-02
Python读取图片属性信息的实现方法
这篇文章介绍了利用Python读取图片属性信息的方法，读取的内容包括GPS 信息、图片分辨率、图片像素、设备商、拍摄设备等，有需要的朋友们可以参考借鉴。
2016-09-09
Python 捕获代码中所有异常的方法
这篇文章主要介绍了Python 捕获代码中所有异常的方法，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-08-08

python对网页文本的格式化实例方法

实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具