# python_data_analysis **Repository Path**: cwm3/python_data_analysis ## Basic Information - **Project Name**: python_data_analysis - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-01-18 - **Last Updated**: 2024-06-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Data-analysis python数据分析与挖掘建模 - :soccer: [数据分析与特征处理](./ch01) - :basketball: [机器学习与数据建模](./ch02) - :apple: [模型评估](./ch03) - :hamburger: [自然语言处理](./NLP) - :cherries: [爬虫那点事](./Spider) - :fries: [kaggle竞赛项目](./kaggle) - :banana: [知识图谱]() ## 常用工具 - numpy - pandas - matplotlib - seaborn 基于matplotlib,对图像的丰富 - SciPy 科学计算中包的集合 - scipy.integrade 数值积分例程和微分方程求解器 - scipy.linalg 线性代数例程和矩阵分解 - scipy.optimize 函数优化器和根查找算法 - scipy.signal 信号处理工具 - scipy.sparse 稀疏矩阵和稀疏线性系统求解器 - scipy.special SPECFUN(实现了许多常用数学函数) - scipy.stats 标准连续和离散概率分布 - scipy.weave 利用内敛c++代码加速数组计算的工具 - scikit-learn 简称sk-learn, 机器学习工具,用于数据分析和数据挖掘,建立在Numpy, SciPy和matplotlib上。 - Jupyter Notebook的本质是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown,kaggle竞赛里资料都是Jupyter格式。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等。 - TensorFlow 是一个采用数据流图,用于数值计算的开源软件库。最初被Google用于机器学习和深度神经网络方面的研究,但也可广泛用于其他计算领域。 - Anaconda 包括Conda,Python以及180多安装好的工具包机器依赖,比如:numpy, pandas等。Conda是一个开源的包,环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。 **jieba分词Demo** ![ciyun](https://github.com/fenglei110/Data-analysis/blob/master/Spider/ch_Haiwang/images/ciyun.png)