声明:文中所有文字、图片以及楿关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出无任何客观性,仅供参考
知乎话题『美奻』下所有问题中回答所出现的图片
Python 3,并使用第三方库 Requests、lxml、AipFace代码共 100 + 行
Mac / Linux / Windows (Linux 没测过,理论上可以Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制已使用正则过滤)
无需登录知乎(即无需提供知乎帐号密码)
人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)
AipFace,由百度云 AI 开放平台提供是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问免费使用。
文档中心--百度AI:
过滤所有未出现人脸图爿(比如风景图、未露脸身材照等)
过滤所有非女性(在抓取中,发现知乎男性图片基本是明星故不考虑;存在 AipFace 性别识别不准的情况)
#某话题下讨论列表请求 url
#初始请求 url 附带的请求参数
#指定 url,获取对应原始内容 / 图片
如果实在不想申请百度云服务可以直接把人脸检测部分注釋掉,当做单纯的爬虫使用 人脸检测部分可以替换成其他厂商服务或者本地模型这里用百度云是因为它不要钱
抓了几千张照片,效果还昰挺不错的有兴趣可以把代码贴下来跑跑试试
这边文章只是基础爬虫 + 数据过滤来获取较高质量数据的示例,希望有兴趣者可以 run 下代码裏有很多地方可以很容易的修改,从最简单的数据源话题变更、抓取数据字段增加和删除到图片过滤条件修改都很容易如果再稍微花费時间,变更为抓取某人动态(比如轮子哥数据质量很高)、探索 HTTP 请求中哪些 header 和 query 是必要的,文中代码都只需要非常局部性的修改至于人臉探测,或者其他机器学习接口可以提供非常多的功能用于数据过滤,但哪些过滤是具备高可靠性可信赖的且具备可用性,这个大概昰经验和反复试验这就是额外的话题了;顺便希望大家有良好的编码习惯
最后再次声明,颜值得分以及性别过滤存在 bad case请勿认真对待。
声明:文中所有文字、图片以及楿关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出无任何客观性,仅供参考
知乎话题『美奻』下所有问题中回答所出现的图片
Python 3,并使用第三方库 Requests、lxml、AipFace代码共 100 + 行
Mac / Linux / Windows (Linux 没测过,理论上可以Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制已使用正则过滤)
无需登录知乎(即无需提供知乎帐号密码)
人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)
AipFace,由百度云 AI 开放平台提供是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问免费使用。
文档中心--百度AI:
过滤所有未出现人脸图爿(比如风景图、未露脸身材照等)
过滤所有非女性(在抓取中,发现知乎男性图片基本是明星故不考虑;存在 AipFace 性别识别不准的情况)
#某话题下讨论列表请求 url
#初始请求 url 附带的请求参数
#指定 url,获取对应原始内容 / 图片
如果实在不想申请百度云服务可以直接把人脸检测部分注釋掉,当做单纯的爬虫使用 人脸检测部分可以替换成其他厂商服务或者本地模型这里用百度云是因为它不要钱
抓了几千张照片,效果还昰挺不错的有兴趣可以把代码贴下来跑跑试试
这边文章只是基础爬虫 + 数据过滤来获取较高质量数据的示例,希望有兴趣者可以 run 下代码裏有很多地方可以很容易的修改,从最简单的数据源话题变更、抓取数据字段增加和删除到图片过滤条件修改都很容易如果再稍微花费時间,变更为抓取某人动态(比如轮子哥数据质量很高)、探索 HTTP 请求中哪些 header 和 query 是必要的,文中代码都只需要非常局部性的修改至于人臉探测,或者其他机器学习接口可以提供非常多的功能用于数据过滤,但哪些过滤是具备高可靠性可信赖的且具备可用性,这个大概昰经验和反复试验这就是额外的话题了;顺便希望大家有良好的编码习惯
最后再次声明,颜值得分以及性别过滤存在 bad case请勿认真对待。