基于关键词采集抖音主页、基于关键词采集抖音视频
使用软件提取、下载抖音视频、批量下载
解决两个问题
1. 算数指数的AES密钥
2.模拟浏览器访问获取带signature的url
采集巨量算数指数的各种指数,包括:垂类榜单.py 算数品牌榜单.py
抖音头条指数.py 算数影视榜单.py
关联分析.py 用户画像.py
话题.py
采集某一个微博账号的账号信息、发布的博客、博客的评论;两种采集方法:使用数据库或者直接保存为csv
视频抽帧,目前有ts文件 mp4 文件的抽帧,抽帧方式为没几秒一帧,另有一种方法,实现每个视频抽几帧。
一些网站图文对的采集
包括behance freejpg hippopx huaban pinterest 菜鸟素材网 图虫网
采ximalaya 喜马拉雅的音频,可用于音频数据的采集,部分音频可采集文本,可用于tts
一些公共网站、公共资源的采集
包括畅想之星、资源学科创新平台、中国互联网信息中心、中国行政区划网、国家法律法规数据库、古诗文网、汉典古籍、买购网、bilibili商城、国家图书馆、国家统计局、
中华地名网_中华行政区划网、易车网等网站的数据采集
采集造句数据
网站:https://zaojv.com/
基于drissionpage实现抠图网站自动上传照片,下载抠图后的照片,换言之,实现抠图的自动化
获取hugging_face数据集的信息,方便概览,然后再跳转到自己所需的数据集链接;或者对平台上的数据集库有比较清晰的认识。
懂车帝的数据采集
包括懂车帝车型列表、各车型的图片采集、各车型的社区(质量反馈、问答等)采集、质量反馈中涉及的视频的下载
等等
汽车图片采集
一些常规的汽车图片网站的开发
包括adobe、behance\car body design \deviantart \formtrends \ huaban \pinterest \pixbay \unsplash\vk
等等
实现对https://cc0.cn/image网站图片的采集,可基于关键词或者网站的标签。