萧石

@beihai_xiaoshi

萧石 暂无简介

所有 个人的 我参与的
Forks 暂停/关闭的

    萧石/gushiwen

    对古诗文网站诗词数据的采集

    萧石/douyin_video

    基于关键词采集抖音主页、基于关键词采集抖音视频 使用软件提取、下载抖音视频、批量下载

    萧石/juliangsuanshu

    解决两个问题 1. 算数指数的AES密钥 2.模拟浏览器访问获取带signature的url 采集巨量算数指数的各种指数,包括:垂类榜单.py 算数品牌榜单.py 抖音头条指数.py 算数影视榜单.py 关联分析.py 用户画像.py 话题.py

    萧石/baiduindex

    获取百度指数

    萧石/scrapy_gaode_poi

    获取高德地图的poi

    萧石/weibo_info

    采集某一个微博账号的账号信息、发布的博客、博客的评论;两种采集方法:使用数据库或者直接保存为csv

    萧石/images_srcapys

    图片爬虫项目合集

    萧石/video_frames

    视频抽帧,目前有ts文件 mp4 文件的抽帧,抽帧方式为没几秒一帧,另有一种方法,实现每个视频抽几帧。

    萧石/images_text

    一些网站图文对的采集 包括behance freejpg hippopx huaban pinterest 菜鸟素材网 图虫网

    萧石/srcapy_ximalaya

    采ximalaya 喜马拉雅的音频,可用于音频数据的采集,部分音频可采集文本,可用于tts

    萧石/xuexiqiangguo_tts

    采集学习强国的音频带文本,可用于学习和tts

    萧石/public_data

    一些公共网站、公共资源的采集 包括畅想之星、资源学科创新平台、中国互联网信息中心、中国行政区划网、国家法律法规数据库、古诗文网、汉典古籍、买购网、bilibili商城、国家图书馆、国家统计局、 中华地名网_中华行政区划网、易车网等网站的数据采集

    萧石/autohome_pictrue

    采集汽车之家汽车图片 按车型采集

    萧石/spider_makeSentence

    采集造句数据 网站:https://zaojv.com/

    萧石/pixelcut

    基于drissionpage实现抠图网站自动上传照片,下载抠图后的照片,换言之,实现抠图的自动化

    萧石/hugging_face_dataset_info

    获取hugging_face数据集的信息,方便概览,然后再跳转到自己所需的数据集链接;或者对平台上的数据集库有比较清晰的认识。

    萧石/scrapy_dongchedi

    懂车帝的数据采集 包括懂车帝车型列表、各车型的图片采集、各车型的社区(质量反馈、问答等)采集、质量反馈中涉及的视频的下载 等等

    萧石/car_images_scrapy

    汽车图片采集 一些常规的汽车图片网站的开发 包括adobe、behance\car body design \deviantart \formtrends \ huaban \pinterest \pixbay \unsplash\vk 等等

    萧石/qq_read

    获取qq阅读的书籍书目信息

    萧石/cc0_image

    实现对https://cc0.cn/image网站图片的采集,可基于关键词或者网站的标签。

搜索帮助