wjh的个人博客

16 Mar 2019

阿里云ocr

阿里云ocr接口调用在解析图片的内容时候，没有什么特别有效的方法，这时候需要借助第三方工具，比如ocr等，在使用阿里的ocr的时候发现官方提供的用例是过时的urllib2，所以需要改为其他的，我这里是用requests改写的。代码如下： ```python import requests import json import base64 def get_img_base64(img_file): with open(img_file, ‘rb’) as infile: base64_data = base64.b64encode(infile.read())...

16 Mar 2019

安装python环境

Python环境安装问题一、Windows系统 Windows安装python环境，安装一个Anaconda就好了，在后期的使用python环境也可以直接使用Anaconda的环境，前提是记得Anaconda安装路径。Anaconda要下载window版本，不然用不了哦。二、Linux——Ubuntu系统应该大致和centos系统是一样的。三、Linux——centos系统两行命令：首先下载Anaconda安装包 sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-4.2.0-Linux-x86_64. 运行sh文件 sudo bash Anaconda3-4.2.0-Linux-x86_64.sh 最后可能还需要运行下配置环境的命令 export PATH=/root/anaconda3/bin:$PATH 执行2命令一直yes下去就好了，然后最后看看有没有配上环境，命令行输入’python’,’python2’,’python3’看看环境有没有配上，一般来说就是输入python是python3的环境，python3也是python3的环境，python2则就是自带的python环境（python2环境不能删除，Linux系统有些是依赖python2）。

16 Mar 2019

图片转为base64编码

python 将图片转为base64编码在有些时候需要将图片转为数据流的形式后存入数据库中，这里就需要将图片转化为其他形式，这里是直接转化为base64编码的形式。代码如下： def get_img_base64(img_file): with open(img_file, 'rb') as infile: base64_data = base64.b64encode(infile.read()) img = str(base64_data)[2:-1] return img 因为以二进制的编码读出图片数据类型是bytes,所以将数据去头去尾存入数据库。...

16 Mar 2019

动态的pdf文件转静态

将动态的PDF文件转换成静态的PDF文件说明：这里将动态PDF文件转换成静态的PDF文件是通过第三方网站转的，靠自己去转比较困难（我还没有研究透）。我是通过爬第三方网站的方式转换的。第三方网址：http://speedtesting.herokuapp.com/pdfxfa/ 爬第三方网站步骤： 1.需要用到的包： import time import requests # 导入requests_toolbelt库使用MultipartEncoder from requests_toolbelt import MultipartEncoder 2.模拟上传动态PDF： def upload_pdf(localfile): url...

16 Mar 2019

利用airtest测试工具写爬虫

利用airtest测试工具写爬虫脚本说明： airtest是一个运用于自动化测试的工具，主要是手机APP测试。最近写爬虫脚本碰到的反爬是越来越厉害了，有的还是无能为力，然后就尝试使用airtest来写爬虫，这个方法可以绕过大部分的反爬，但是有一个缺点就是有点慢，不过呢，数据量大可以考虑做集群，软件的缺点用硬件来弥补。接下来介绍airtest的使用。一、安装airtest： 1.首先去官网下载https://airtest.netease.com，然后安装正常软件一样安装完成就好。二、编辑代码调试： 1.打开编辑、调试窗口（如下图）： 2.界面讲解： 3.手机在开发者模式中打开USB试调，然后在F区连接手机（也可以连接手机模拟器） 4.连接手机后，在B区的stop改成Android,之后可以在C区开始代码的编写调试三、在python中的使用： 1.安装包： pip install pocoui 2.连接手机： dev = connect_device('android:///127.0.0.1:{}?cap_method=javacap&touch_method=adb'.format(num)) poco...

16 Mar 2019

Centos7安装opencv

centos7下安装OpenCV 一、首先执行pip install opencv-python pip install opencv-python 二、找到相应版本的opencv的下载链接 wget https://pypi.tuna.tsinghua.edu.cn/packages/85/e1/d3eed618272f4b746339af1a84b2511e79c1708d88a9195cf25d743fa614/opencv_python-3.4.5.20-cp36-cp36m-manylinux1_x86_64.whl#sha256=70cb9b121649c5bfba3aba29b517e9ed34ae9fb9dbff5e211f979a778f230cc2 三、这是导入cv2会报错，然后下载缺少的东西就好了错误为： ImportError: libSM.so.6: cannot open shared object file: No...

16 Mar 2019

Python读取excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块（二）

Python读取Excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块（二）二.使用openpyxl模块对xlsx文件进行读操作 1.导入模快，获取工作簿对象 import openpyxl # 获取工作簿对象 workbook = openpyxl.load_workbook("file_name") 2.获取工作表(sheet)对象 # 获取工作簿 workbook的所有工作表 shenames = workbook.get_sheet_names() # 获取工作表对象 worksheet...

16 Mar 2019

Python读取excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块（一）

Python读取Excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块（一）一.使用xlrd模块对xls文件进行读操作 1.导入模块，获取工作簿对象 # 导入模块 import xlrd # 获取excel工作簿对象 workbook = xlrd.open_workbook('file_name') # file_name为excel表路劲 2.获取工作表(sheet)对象 # 获取所有的sheet names = workbook.sheet_names()...

16 Mar 2019

Python解析pdf文件

Python解析PDF文件一、使用pdfplumber解析PDF import pdfplumber import re def parse_pdf(path): pdf = pdfplumber.open(path) for page in pdf.pages: print(page.extract_text()) for pdf_table in page.extract_tables():...

02 Jan 2019

裁判文书网

中国裁判文书网爬虫实习的第一个爬虫项目就是爬取中国裁判文书网，在爬这个网站的时候碰到一系列的问题，刚好可以将这些问题统一总结到我搭建的github博客上。一、数据需求 1.案件相关信息 2.文书内容(为了方便我直接存的html文件) 二、网站分析 “中国裁判文书网”是一个政府网站，所以他符合政府网站的一些缺点，比如网页响应慢，不过有一点没有想到的是这个网站的反爬措施做的还不错，还需要花一番功夫去研究，接下来就开始分析一下这个网站。 1.简单的了解这个网站，我们要爬取这个网站数据有两个思路，一是使用浏览器自动化工具selenium，模拟浏览爬取，二是找到url直接发起请求获取数据。分析网站数据个人觉得第一种方法可以舍弃，抓取效率低，所以就直接使用第二种方法，寻找url。 2.在确定了抓取方法之后，就要开始分析url了，可以使用浏览器的开发者工具也可以使用专门的抓包工具，看个人习惯。很快就可以找到要的url，然后就是分析这个url，然后知道了这个url是post请求，然后又好多需要的参数，接下来就是分析参数了，难点即使分析这些参数了。 3.分析参数其中的难点参数有这几个：“vl5x”，“number”， “guid” 而其中number是另一个url返回的结果，就是上面的那个GetCode的那个url，并且也是post请求，参数叫简单就是guid，接下来是要去找这个guid了。 ...

wjh

Blog