# dataclean **Repository Path**: liuyuanxi/dataclean ## Basic Information - **Project Name**: dataclean - **Description**: 连享会主播:Stata 数据清洗实战第二季 (课程主页) - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 299 - **Created**: 2021-07-16 - **Last Updated**: 2021-07-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/Lianxh_装饰黄线.png) > 连享会   [主页](https://www.lianxh.cn/news/46917f1076104.html) || [视频](http://lianxh.duanshu.com) || [推文](https://www.lianxh.cn/news/d4d5cd7220bc7.html) || [B站](https://space.bilibili.com/546535876) ## 🎦 连享会公开课:微观数据库清理经验分享 > 👉 点击右上角的【**Fork**】按钮,可以把这个项目完整复制到你的码云账号下,随时查看。 - **直播时间:** 7月15日 19:00-20:30 - **参与方式:** 网络直播,扫码进群即可参与 - **课程主页:** >**扫码入群**: ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/数据清理.png) ## 1. 课程导言 - 你是否拿到一个微观调查数据库却 **无从下手** ? - 你是否对着 Stata 和茫茫数据感到 **头皮发麻** ? - 你是否辛辛苦苦整理数据数天,却发现清理完的数据 **跑不出结果** ? > 最近,冰倩刚刚完成了两篇推文,非常系统地介绍了微观数据库清理的各种陷阱和方法。我于是邀请她做一期公开课,向众多同样在数据的泥淖中挣扎的小伙伴们分享一些经验,她欣然应许。 **连玉君** `2021/7/11` > **涂冰倩:** 虽然对于数据管理,我现阶段只能算入门,但我在数据清理过程中走了一些弯路,也积累了一些经验,我希望将这些经验、困惑和教训分享给需要的朋友,和大家一起进步,在实践中不断前进。 本次课程将简要介绍数据清理的流程,结合 **实例** 走完整个数据清理过程,并总结我在数据清理中的经验和困惑,希望能为初学者提供一点清理数据的思路,为之后的数据分析工作打下基础。 本次课程介绍的清理方法 **适用于** 小型调查数据以及各类大型家庭数据库, 也可以为其他数据库的分析提供参考。   ## 2. 嘉宾介绍 ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/涂冰倩200-280.jpg) **涂冰倩** ,浙江大学农业经济学直博生,研究方向主要为林业经济学、新制度经济学等,虽然博士二年级刚结束,已经有论文发表于《南方经济》。在 2021 年的 [五一论文班](https://gitee.com/lianxh/paper) 中,冰倩同学与多位小伙伴合作,出色地完成了答疑工作。三天的课程中,冰倩回答了大量的问题,尤其是对微观数据处理方面的能力给我留下了深刻的印象。   ## 3. 课程详情 ### 分享要点 - **数据清理流程提要**:数据管理 step by step - **准备环节** - 读取数据 - 提取变量 - 数据的合并与转换 - 检查数据 - **数据清理** - 单变量清理 - 分类变量的清理 - 连续变量的清理 - 缺失值的查验和处理 - 极端值的查验和处理 - 多变量清理 - 用分类变量检查分类变量 - 用连续变量检查分类变量 - 用连续变量检查连续变量 - **综合变量生成** - 观测值组间计算 - 观测值组内计算 - **数据清理收尾工作** - **心得与学习资料推荐** ### 课程特色 - 短小精悍:通过案例和 Stata 代码讲解常用数据清理方法。 - 讲义程序:分享电子版课件(数据和代码),课程中的数据清洗方法可以应用于自己的论文中。 - 持续交流:课程微信群会永久保留,以便大家交流。 ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/Lianxh_装饰黄线.png)   ## 4. 预习资料 - **公开课视频** - [连享会公开课:Stata33 讲](https://lianxh.duanshu.com/#/brief/course/b22b17ee02c24015ae759478697df2a0) ([码云仓库](https://gitee.com/arlionn/Stata33)) - [连享会公开课:Stata小白的取经之路](http://lianxh-pc.duanshu.com/course/detail/137d1b7c7c0045e682d3cf0cb2711530) - **专题推文:** - [Stata 数据处理](https://www.lianxh.cn/blogs/25.html) - [Stata:CHFS中国家庭金融调查数据库清洗和处理](https://www.lianxh.cn/news/7ef9c8714d0a2.html) - [清洗CFPS:两步搞定中国家庭追踪调查数据清洗](https://www.lianxh.cn/news/3658eb3cc6e94.html) - [Stata数据处理:清洗CFPS数据库](https://www.lianxh.cn/news/2916ae8363459.html) - [Stata 入门](https://www.lianxh.cn/blogs/16.html) - [Stata 教程](https://www.lianxh.cn/blogs/17.html) - [Stata 资源](https://www.lianxh.cn/blogs/35.html)     ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/Lianxh_装饰黄线.png) > Stata连享会   [主页](https://www.lianxh.cn/news/46917f1076104.html) || [视频](http://lianxh.duanshu.com) || [推文](https://www.lianxh.cn/news/d4d5cd7220bc7.html) || [知乎](https://www.zhihu.com/people/arlionn/) || [Bilibili 站](https://space.bilibili.com/546535876) ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/连享会-草料主页-一码平川600.png)   ## 1. 连享会课程   > ### ⛳ [课程主页](https://www.lianxh.cn/news/46917f1076104.html) [![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/lianxhbottom01.png)](https://www.lianxh.cn/news/46917f1076104.html) [![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/lianxhbottom02.png)](https://www.lianxh.cn/news/46917f1076104.html) [![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/lianxhbottom03.png)](https://www.lianxh.cn/news/46917f1076104.html) > ### ⛳ [课程主页](https://www.lianxh.cn/news/46917f1076104.html) ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/Lianxh_装饰黄线.png)   ## 2. 资源分享 ### 视频公开课 - [连享会码云:100多个精选计量项目](https://www.lianxh.cn/news/944a69d75cec9.html) | [新浪视频](https://weibo.com/tv/show/1034:4479228373303338) - [五分钟 Markdown / Markdown 幻灯片](https://gitee.com/arlionn/md) | [新浪视频](https://weibo.com/tv/show/1034:4484204327796746) - [连老师给你的-听课建议](https://www.lianxh.cn/news/69706e871c9ad.html) - [直击面板数据模型](http://lianxh-pc.duanshu.com/course/detail/7d1d3266e07d424dbeb3926170835b38) - 连玉君,时长:1小时40分钟,[B 站版](https://www.bilibili.com/video/BV1oU4y187qY) - [Stata 33 讲](http://lianxh-pc.duanshu.com/course/detail/b22b17ee02c24015ae759478697df2a0) - 连玉君, 每讲 15 分钟. [课程主页](https://gitee.com/arlionn/stata101),[课件](https://gitee.com/arlionn/stata101),[B 站版](https://space.bilibili.com/546535876/channel/detail?cid=160748) - [Stata小白的取经之路](https://gitee.com/arlionn/StataBin),龙志能,上海财经大学,[去听课](https://lianxh.duanshu.com/#/brief/course/137d1b7c7c0045e682d3cf0cb2711530) ### Stata - [连享会推文](https://www.lianxh.cn) | [直播视频](http://lianxh.duanshu.com) - **计量专题课程**: [Stata暑期班/寒假班](https://gitee.com/lianxh/text) | [专题课程](https://gitee.com/arlionn/Course) - Stata专栏:[最新推文](https://www.lianxh.cn) | [知乎](https://www.zhihu.com/people/arlionn/) | [CSDN](https://blog.csdn.net/arlionn) | [Bilibili 站](https://space.bilibili.com/546535876) - Books and Journal: [计量Books](https://quqi.gblhgk.com/s/880197/hmpmu2ylAcvHnXwY) | [SJ-PDF](https://quqi.gblhgk.com/s/880197/eipgoUi6Gd1FDZRu) | [Stata Journal-在线浏览](https://www.lianxh.cn/news/12ffe67d8d8fb.html) - Stata Guys:[Ben Jann](http://www.soz.unibe.ch/about_us/personen/prof_dr_jann_ben/index_eng.html) ### Data - [CSMAR-国泰安](http://www.gtarsc.com/#/datacenter/singletable) | [Wind-万德](https://www.wind.com.cn/Default.html) | [Resset-锐思](http://www.resset.cn/databases) - [常用数据库](https://www.lianxh.cn/news/0b65fd5165c2c.html) - [人文社科开放数据库](https://www.lianxh.cn/news/6f06c914acde8.html) - [徐现祥教授-IRE-官员交流、方言等](https://www.lianxh.cn/news/8c9f81a5f19ee.html) - [知乎-Data](https://www.zhihu.com/question/20179699/answer/681756635) ### Papers - 学术论文复现 - [论文重现网站](https://www.lianxh.cn/news/e87e5976686d5.html) - [Google学术](https://ac.scmor.com/) | [统一入口:虫部落学术搜索](http://scholar.chongbuluo.com/) | [微软学术](https://academic.microsoft.com/home) - [iData - 期刊论文下载](https://www.cn-ki.net/) - [ CNKI ](http://scholar.cnki.net/) | [百度学术](http://xueshu.baidu.com/) | [Google学术](https://scholar.glgoo.org/) | [Sci-hub ](http://www.sci-hub.cc/), [2](http://sci-hub.ac/), [3](http://sci-hub.bz/), [4](http://sci-hub.ac/) - Stata论文重现: [Harvard dataverse][harvd] | [JFE][jfe] | [github][git1] | [Yahoo-github][yahoogit] - 学者主页(提供了诸多论文的原始数据和 dofiles):[Angrist][Ang1] || [Daron Acemoglu][acem] || [Ross Levine][ross] || [Esther Duflo][Duflo] || [Imbens](https://scholar.harvard.edu/imbens/software) || [Raj Chetty](http://www.rajchetty.com/) [harvd]:https://dataverse.harvard.edu/dataverse [jfe]:http://jfe.rochester.edu/data.htm [Ang1]:http://economics.mit.edu/faculty/angrist/data1/data [acem]:http://economics.mit.edu/faculty/acemoglu/data [ross]:http://faculty.haas.berkeley.edu/ross_levine/papers.htm [duflo]:http://economics.mit.edu/faculty/eduflo/papers [git1]:https://github.com/search?utf8=%E2%9C%93&q=stata&type= [yahoogit]:https://search.yahoo.com/search;_ylt=AwrBT8di2LBZqyEAuG9XNyoA;_ylc=X1MDMjc2NjY3OQRfcgMyBGZyA3lmcC10LTQ3MwRncHJpZAMEbl9yc2x0AzAEbl9zdWdnAzAEb3JpZ2luA3NlYXJjaC55YWhvby5jb20EcG9zAzAEcHFzdHIDBHBxc3RybAMwBHFzdHJsAzE0BHF1ZXJ5A3N0YXRhJTIwZ2l0aHViBHRfc3RtcAMxNTA0NzYxODcz?p=stata+github&fr2=sb-top&fr=yfp-t-473&fp=1   --- >#### 关于我们 - **Stata连享会** 由中山大学连玉君老师团队创办,定期分享实证分析经验。[直播间](http://lianxh.duanshu.com) 有很多视频课程,可以随时观看。 - [连享会-主页](https://www.lianxh.cn) 和 [知乎专栏](https://www.zhihu.com/people/arlionn/),500+ 推文,实证分析不再抓狂;[Bilibili 站](https://space.bilibili.com/546535876) 有视频大餐。   > ⛳ **`lianxh` 命令发布了:** > 随时搜索连享会推文、Stata 资源,安装命令如下: >   `. ssc install lianxh` > 使用详情参见帮助文件 (有惊喜): >   `. help lianxh`   ![](https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/横条-远山03-窄版.jpg)