学习PHP+MySQL制作WEB应用有一阵子了,没有上过学所以只能学习到CURD的地步。
最近对国产美女图片、特别感兴趣,什么周妍希、刘飞儿、李可可、推女郎我一个都不知道~~
经常调查我发现一个叫妹子图的站资源多、人气高、收录好,所以就扒它了~ 主要扒个页面样式包括PC和移动 ~~
除了美女图片我还需要保存 title 和 tag 信息,再加一个 href 字段用于防止重复抓取,所以数据表 meizitu 应该是这样的:
id (int 10) 自增
title (varchar100)
tag (varchar100)
href (varchar100)
is_post (int3)
tag 字段用于保存类似筱慧icon,易阳,萌宝儿,,丝袜等等标签,支持多个标签但不建议超过三个。
首先我决定抓取妹子图的性感写真栏目,第一步 http 获取列表页 html 源代码,建议使用CURL并设置referer和UA反仿盗链。
使用 simple_html_dom 这个开源类库解析 html 源代码,非常容易就能获取美女套图的标题和URL链接,用法类似 jQuery 非常牛逼克拉死。
第三步,将整理好的美女图片发布到自己的WEB应用,记得一定要重新设置标题和其它信息。
第四步,实现自动发布(待完成)目前主要遇到的问题就是如何通过原始标题生成一个新的标题,不知道有什么可以借鉴的项目。