# images_text **Repository Path**: beihai_xiaoshi/images_text ## Basic Information - **Project Name**: images_text - **Description**: 一些网站图文对的采集 包括behance freejpg hippopx huaban pinterest 菜鸟素材网 图虫网 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2024-11-21 - **Last Updated**: 2024-11-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # images_text ## 介绍 一些网站图文对的采集 包括behance freejpg hippopx huaban pinterest 菜鸟素材网 图虫网 ## 图文对 采集 文本:标签,desc:str,label:[] 量级 :每个二级标签几千个 尺寸信息 尺寸要求 图片url 搜素词准备:images_keywords = mongo_manager("images_keywords", db='car_images') ## 网站 图虫 https://stock.tuchong.com/topics?goods_type=0&page=1 有水印 无法下载原图 摄图网 https://699pic.com/ 效果不好 hippopx https://www.hippopx.com/zh sucai999 https://www.sucai999.com/pic.html?v=NTYxMjky 图文有水印 pinterest https://www.pinterest.com/ freejpg https://en.freejpg.com.ar/ Pexels https://www.pexels.com/ stocksnap https://stocksnap.io/ 需要解决网页编码方式,访问速度慢 pxhere https://pxhere.com/zh/ 暂时不知道网页编码方式 Depositphotos http://depositphotos.com/ 需要登录 Dreamstime https://www.dreamstime.com 需要登录 Getty Images https://www.gettyimages.com 商用 500PX https://500px.com/ 能检测到代理 不能获取图片 behance 内容偏向设计 ## 字符编码介绍 ASCII:一种用于基本拉丁字母、数字和标点符号的字符编码。它是许多其他字符编码的基础,只使用 7 位字节。 ISO-8859-1(Latin-1):西欧语言中使用的字符编码,覆盖了大多数西欧语言的字符集。 UTF-16:一种 Unicode 编码方式,使用 16 位编码单元来表示字符,通常以大端或小端序存储。 UTF-32:另一种 Unicode 编码方式,使用 32 位编码单元来表示字符。 GB2312:中国国家标准的简体中文字符集编码,包含中国大陆常用的汉字。 Shift-JIS:一种用于日文的字符编码方式。 EUC-KR:韩文的字符编码方式。 Big5:繁体中文的字符编码方式,主要用于台湾地区。