Are You Ok ?!!!
阿里云ocr接口调用 在解析图片的内容时候,没有什么特别有效的方法,这时候需要借助第三方工具,比如ocr等,在使用阿里的ocr的时候发现官方提供的用例是过时的urllib2,所以需要改为其他的,我这里是用requests改写的。 代码如下: ```python import requests import json import base64 def get_img_base64(img_file): with open(img_file, ‘rb’) as infile: base64_data = base64.b64encode(infile.read())...
Python环境安装问题 一、Windows系统 Windows安装python环境,安装一个Anaconda就好了,在后期的使用python环境也可以直接使用Anaconda的环境,前提是记得Anaconda安装路径。Anaconda要下载window版本,不然用不了哦。 二、Linux——Ubuntu系统 应该大致和centos系统是一样的。 三、Linux——centos系统 两行命令: 首先下载Anaconda安装包 sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-4.2.0-Linux-x86_64. 运行sh文件 sudo bash Anaconda3-4.2.0-Linux-x86_64.sh 最后可能还需要运行下配置环境的命令 export PATH=/root/anaconda3/bin:$PATH 执行2命令一直yes下去就好了,然后最后看看有没有配上环境,命令行输入’python’,’python2’,’python3’看看环境有没有配上,一般来说就是输入python是python3的环境,python3也是python3的环境,python2则就是自带的python环境(python2环境不能删除,Linux系统有些是依赖python2)。
python 将图片转为base64编码 在有些时候需要将图片转为数据流的形式后存入数据库中,这里就需要将图片转化为其他形式,这里是直接转化为base64编码的形式。 代码如下: def get_img_base64(img_file): with open(img_file, 'rb') as infile: base64_data = base64.b64encode(infile.read()) img = str(base64_data)[2:-1] return img 因为以二进制的编码读出图片数据类型是bytes,所以将数据去头去尾存入数据库。...
将动态的PDF文件转换成静态的PDF文件 说明: 这里将动态PDF文件转换成静态的PDF文件是通过第三方网站转的,靠自己去转比较困难(我还没有研究透)。我是通过爬第三方网站的方式转换的。 第三方网址:http://speedtesting.herokuapp.com/pdfxfa/ 爬第三方网站步骤: 1.需要用到的包: import time import requests # 导入requests_toolbelt库使用MultipartEncoder from requests_toolbelt import MultipartEncoder 2.模拟上传动态PDF: def upload_pdf(localfile): url...
利用airtest测试工具写爬虫脚本 说明: airtest是一个运用于自动化测试的工具,主要是手机APP测试。最近写爬虫脚本碰到的反爬是越来越厉害了,有的还是无能为力,然后就尝试使用airtest来写爬虫,这个方法可以绕过大部分的反爬,但是有一个缺点就是有点慢,不过呢,数据量大可以考虑做集群,软件的缺点用硬件来弥补。接下来介绍airtest的使用。 一、安装airtest: 1.首先去官网下载https://airtest.netease.com,然后安装正常软件一样安装完成就好。 二、编辑代码调试: 1.打开编辑、调试窗口(如下图): 2.界面讲解: 3.手机在开发者模式中打开USB试调,然后在F区连接手机(也可以连接手机模拟器) 4.连接手机后,在B区的stop改成Android,之后可以在C区开始代码的编写调试 三、在python中的使用: 1.安装包: pip install pocoui 2.连接手机: dev = connect_device('android:///127.0.0.1:{}?cap_method=javacap&touch_method=adb'.format(num)) poco...
centos7下安装OpenCV 一、首先执行pip install opencv-python pip install opencv-python 二、找到相应版本的opencv的下载链接 wget https://pypi.tuna.tsinghua.edu.cn/packages/85/e1/d3eed618272f4b746339af1a84b2511e79c1708d88a9195cf25d743fa614/opencv_python-3.4.5.20-cp36-cp36m-manylinux1_x86_64.whl#sha256=70cb9b121649c5bfba3aba29b517e9ed34ae9fb9dbff5e211f979a778f230cc2 三、这是导入cv2会报错,然后下载缺少的东西就好了 错误为: ImportError: libSM.so.6: cannot open shared object file: No...
Python读取Excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块(二) 二.使用openpyxl模块对xlsx文件进行读操作 1.导入模快,获取工作簿对象 import openpyxl # 获取工作簿对象 workbook = openpyxl.load_workbook("file_name") 2.获取工作表(sheet)对象 # 获取工作簿 workbook的所有工作表 shenames = workbook.get_sheet_names() # 获取工作表对象 worksheet...
Python读取Excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块(一) 一.使用xlrd模块对xls文件进行读操作 1.导入模块,获取工作簿对象 # 导入模块 import xlrd # 获取excel工作簿对象 workbook = xlrd.open_workbook('file_name') # file_name为excel表路劲 2.获取工作表(sheet)对象 # 获取所有的sheet names = workbook.sheet_names()...
Python解析PDF文件 一、使用pdfplumber解析PDF import pdfplumber import re def parse_pdf(path): pdf = pdfplumber.open(path) for page in pdf.pages: print(page.extract_text()) for pdf_table in page.extract_tables():...
中国裁判文书网爬虫 实习的第一个爬虫项目就是爬取中国裁判文书网,在爬这个网站的时候碰到一系列的问题,刚好可以将这些问题统一总结到我搭建的github博客上。 一、数据需求 1.案件相关信息 2.文书内容(为了方便我直接存的html文件) 二、网站分析 “中国裁判文书网”是一个政府网站,所以他符合政府网站的一些缺点,比如网页响应慢,不过有一点没有想到的是这个网站的反爬措施做的还不错,还需要花一番功夫去研究,接下来就开始分析一下这个网站。 1.简单的了解这个网站,我们要爬取这个网站数据有两个思路,一是使用浏览器自动化工具selenium,模拟浏览爬取,二是找到url直接发起请求获取数据。分析网站数据个人觉得第一种方法可以舍弃,抓取效率低,所以就直接使用第二种方法,寻找url。 2.在确定了抓取方法之后,就要开始分析url了,可以使用浏览器的开发者工具也可以使用专门的抓包工具,看个人习惯。很快就可以找到要的url,然后就是分析这个url,然后知道了这个url是post请求,然后又好多需要的参数,接下来就是分析参数了,难点即使分析这些参数了。 3.分析参数 其中的难点参数有这几个:“vl5x”,“number”, “guid” 而其中number是另一个url返回的结果, 就是上面的那个GetCode的那个url,并且也是post请求,参数叫简单就是guid,接下来是要去找这个guid了。 ...