python爬取微信公众号文章图片并转为PDF

 更新时间:2022年02月08日 14:32:01   作者:三十岁开始学编程的大叔  
大家好,本篇文章主要讲的是python爬取微信公众号文章图片并转为PDF,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。
2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号方面查看

#-----------------settings---------------
#url='https://mp.weixin.qq.com/s/8JwB_SXQ-80uwQ9L97BMgw'
print('jd3096 for king 2.0 VIP8钻石永久会员版')
print('愿你远离流氓软件每一天')
url=input('请输入网址:')
#-----------------get data----------------
import requests
import re
from bs4 import BeautifulSoup
import os
from PIL import Image

try:
    os.makedirs('pics')
except:
    pass

os.chdir('pics')

page=requests.get(url).text
soup = BeautifulSoup(page, 'html.parser')
jdata = soup.find_all('img')
pn=0
for i in jdata:
    try:
        src=i['data-src']
        print(src)
        rp = requests.get(src)
        with open(str(pn)+'.jpg','wb+')as f : # 循环写入图片
            print(str(pn)+'.jpg')
            f.write(rp.content)
        pn+=1
    except:
        pass
#--------------------make pdf--------------------
from fpdf import FPDF
import os
path=os.getcwd()
print(path)
pdf = FPDF()
pdf.set_auto_page_break(1)
imagelist = [i for i in os.listdir()]
imagelist.sort(key=lambda x: int(x.split('.')[0]))
print(imagelist)
for image in imagelist:
    try:
        img = Image.open(image)
        w = img.width       #图片的宽
        h = img.height      #图片的高
        ii=h/w
        print(ii)
        if ii>1.41:
            ww=int(250/ii)
            pdf.add_page()
            pdf.set_xy(0,0)
            pdf.set_font('arial','B',14)
            pdf.cell(60)
            pdf.cell(70,10,image,border=0, ln=1, align='C')
            pdf.image(os.path.join(path, image), w=ww, h=250)
        else:
            hh=int(180*ii)
            pdf.add_page()
            pdf.set_xy(0,0)
            pdf.set_font('arial','B',14)
            pdf.cell(60)
            pdf.cell(70,10,image,border=0, ln=1, align='C')
            pdf.image(os.path.join(path, image), w=180, h=hh)
    except:
        pass

pdf.output(os.path.join(path, "merge.pdf"), "F")


爬完了长这样:

在这里插入图片描述

PDF长这样,比例适中适合阅读

在这里插入图片描述

到此这篇关于python爬取微信公众号文章图片并转为PDF的文章就介绍到这了,更多相关python微信公众号文章图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python灰色预测法的具体使用

    python灰色预测法的具体使用

    灰色系统理论认为对既含有已知信息又含有未知或非确定信息的系统进行预测,本文就介绍了python灰色预测法的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2022-03-03
  • Python列表(list)常用操作方法小结

    Python列表(list)常用操作方法小结

    这篇文章主要介绍了Python列表(list)常用操作方法小结,本文讲解了常用操作方法和一些简单代码实例,需要的朋友可以参考下
    2015-02-02
  • Python利用openpyxl库遍历Sheet的实例

    Python利用openpyxl库遍历Sheet的实例

    今天小编就为大家带来一篇Python利用openpyxl库遍历Sheet的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python文件比较示例分享

    python文件比较示例分享

    本文介绍了Python比较两个文本文件内容,如果不同, 给出第一个不同处的行号和列号,大家参考使用吧
    2014-01-01
  • python 含子图的gif生成时内存溢出的方法

    python 含子图的gif生成时内存溢出的方法

    今天小编就为大家分享一篇python 含子图的gif生成时内存溢出的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python 中将二进制转换为整数的多种方法

    Python 中将二进制转换为整数的多种方法

    这篇文章主要介绍了Python 中将二进制转换为整数,Python 中提供了多种方式将二进制字符串转换为整数,其中包括使用 int() 函数、使用二进制前缀和使用 eval() 函数,本文通过实例代码讲解的非常详细,需要的朋友可以参考下
    2023-05-05
  • python实现对图片进行旋转,放缩,裁剪的功能

    python实现对图片进行旋转,放缩,裁剪的功能

    今天小编就为大家分享一篇python实现对图片进行旋转,放缩,裁剪的功能,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python 利用百度API识别图片文字(多线程版)

    python 利用百度API识别图片文字(多线程版)

    这篇文章主要介绍了python 利用百度API识别图片文字(多线程版),帮助大家更好的利用python进行机器识别,感兴趣的朋友可以了解下
    2020-12-12
  • 解决python执行较大excel文件openpyxl慢问题

    解决python执行较大excel文件openpyxl慢问题

    这篇文章主要介绍了解决python执行较大excel文件openpyxl慢问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python识别设备和操作系统神器device_detector使用探究

    Python识别设备和操作系统神器device_detector使用探究

    这篇文章主要介绍了Python识别设备和操作系统神器device_detector库使用探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01

最新评论