python对网页文本的格式化实例方法

 更新时间:2021年10月12日 08:37:22   作者:小妮浅浅  
在本篇文章里小编给大家整理是一篇关于python对网页文本的格式化实例方法,有兴趣的朋友们可以跟着学习参考下。

1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。

2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。

实例

<body>
    <h1>论语学而篇第一</h1>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h2>本篇引语</h2>
    <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是
     <strong>「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等</strong>道德范畴。</p>
    <h2>原文</h2>
    <p>子曰:「<mark>学而时习之,不亦说乎?</mark>有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」 </p>
  </body>

知识点扩展:

Python int与string之间的转化

string–>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

int–>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后,可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容,更多关于python爬虫中网页文本的格式化的资料请关注脚本之家其它相关文章!

相关文章

  • python函数的5种参数详解

    python函数的5种参数详解

    昨天看《Python核心编程》的时候,刚好看到了函数部分,于是顺势将目前接触到的集中参数类型都总结一下吧^^
    2017-02-02
  • 在pycharm中设置显示行数的方法

    在pycharm中设置显示行数的方法

    今天小编就为大家分享一篇在pycharm中设置显示行数的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python简单几步画个钻石戒指

    Python简单几步画个钻石戒指

    这篇文章主要介绍了Python简单几步画个钻石戒指,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-09-09
  • Python的三种主要模块介绍

    Python的三种主要模块介绍

    这篇文章介绍了Python的三类主要模块,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07
  • python实现拼接图片

    python实现拼接图片

    这篇文章主要为大家详细介绍了python实现拼接图片,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • Python Pingouin数据统计分析技术探索

    Python Pingouin数据统计分析技术探索

    Pingouin库基于pandas、scipy和statsmodels,为用户提供了执行常见统计分析的功能,它支持各种统计方法和假设检验,例如 t-tests、ANOVA、correlation analysis 等,本文通过一些示例代码,以更全面地了解如何使用Pingouin库进行统计分析,
    2024-01-01
  • python taipy库轻松地将数据和机器学习模型转为功能性Web应用

    python taipy库轻松地将数据和机器学习模型转为功能性Web应用

    taipy 是一个开源的 Python 库,任何具有基本 Python 技能的人都可以使用,对于数据科学家、机器学习工程师和 Python 程序员来说,它是一个方便的工具,借助 Taipy,你可以轻松地将数据和机器学习模型转变为功能性的 Web 应用程序
    2024-01-01
  • python3 kmp 字符串匹配的方法

    python3 kmp 字符串匹配的方法

    这篇文章主要介绍了python3 kmp 字符串匹配的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • python开发环境PyScripter中文乱码问题解决方案

    python开发环境PyScripter中文乱码问题解决方案

    PyScripter是一个使用Delphi开发的开源的Python集成开发环境(IDE),PyScripter支持Python2.4、2.5、2.6、2.7、3.0、3.1、3.2,而且可以根据需要切换。
    2016-09-09
  • Pandas标记删除重复记录的方法

    Pandas标记删除重复记录的方法

    下面小编就为大家分享一篇Pandas标记删除重复记录的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论