@beihai_xiaoshi
萧石 暂无简介
对古诗文网站诗词数据的采集
基于关键词采集抖音主页、基于关键词采集抖音视频 使用软件提取、下载抖音视频、批量下载
解决两个问题 1. 算数指数的AES密钥 2.模拟浏览器访问获取带signature的url 采集巨量算数指数的各种指数,包括:垂类榜单.py 算数品牌榜单.py 抖音头条指数.py 算数影视榜单.py 关联分析.py 用户画像.py 话题.py
获取百度指数
获取高德地图的poi
采集某一个微博账号的账号信息、发布的博客、博客的评论;两种采集方法:使用数据库或者直接保存为csv
图片爬虫项目合集
视频抽帧,目前有ts文件 mp4 文件的抽帧,抽帧方式为没几秒一帧,另有一种方法,实现每个视频抽几帧。
一些网站图文对的采集 包括behance freejpg hippopx huaban pinterest 菜鸟素材网 图虫网
采ximalaya 喜马拉雅的音频,可用于音频数据的采集,部分音频可采集文本,可用于tts