Paradise's Blog

Rome Paradise was not built in a day.

Pandas 数据处理技巧

「 大型数据 | 描述统计 | 代码加速 」

基本操作 示例数据为 economics 数据集:   date pce pop psavert uempmed unemploy 0 1967-07-01 507.4 198712 12.5 ...

Pandas-数据处理函数

「 使用 Pandas 集成的函数更高效地处理数据 」

学了那么久,平时用 Pandas 基本上就是干 Excel 的活,事实上 Pandas 的优势在于其集成了大量高效的数据处理函数。通过矢量化的运算,节省了很多循环的时间,在处理大型数据集上有很大的优势。以下复习一下常用的数据处理函数,养成用函数代替纯代码的习惯。 更详细的文档查看官网的 User Guide ,经常翻一翻! 样本数据 id na...

SQL-入门学习笔记(下)

「 数据库进阶知识点 | MySQL 」

储存过程、游标、触发器和事务 储存过程 相当于自定义函数,每次相似的查询只需要输入对应变量。使用 PROCEDURE 定义储存过程,使用 CALL 调用储存过程。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 4...

SQL-入门学习笔记(上)

「 数据库知识点总结 | MySQL常用语法 」

数据库基础 数据库:不同数据类型的数据构成单元、行列构成表、表构成数据库 数据库管理系统:DBMS,例如MySQL。创建以及操作数据库的软件 主键:非空且唯一,由于区分每一列,在关系型数据库中用到 SQL:结构化查询语句,每个DBMS实现的SQL都不尽相同,存在一个标准委员会,定义可供所有DBMS使用的SQL语法。 两类DBMS:基于共享文件系统的DBMS,如Micr...

R for Data Science - Learning Notes (III)

「 Communications & Cooperations 」

教材介绍:https://book.douban.com/subject/26757974/ 相关资源:https://github.com/hadley/r4ds CHPT22 - Graphics for Communication with ggplot2 此前介绍的绘图操作仅限于 EDA 过程中的可视化,本章介绍用于 Report 的可视化技巧,即图片的修饰和美化。...

R for Data Science - Learning Notes (II)

「 Modeling & R-Markdown 」

教材介绍:https://book.douban.com/subject/26757974/ 相关资源:https://github.com/hadley/r4ds CHPT18 - Model Basics with modelr (1)随机参数拟合 本章介绍线性模型的拟合,首先使用最简单粗暴的方法:随机参数拟合,来理解模型的本质。以下为探索过程。 1 2 3 4 5...

R for Data Science - Learning Notes (I)

「 Data-processing Basics & Useful Packages 」

教材介绍:https://book.douban.com/subject/26757974/ 相关资源:https://github.com/hadley/r4ds CHPT01 ~ CHPT04 Basic Scripts dplyr ggplot2 速查表 | 提取码:2ja3 CHPT05 - Exploratory Data Anal...

R 统计分析

「 使用 R 语言进行统计分析 」

R 语言功能强大,探索性数据分析(EDA),统计分析模型,数据挖掘模型,数据可视化,样样精通。报告方面有媲美Jupyter Notebook的RMarkdown,使用knit和pandoc生成,颜值颇高。交互方面有shiny,也有让人惊艳的效果。 但是硬伤就是语言本身的可读性不高(基本每次写都要参考别人的代码,某些语法样式也很奇怪,不是天天用很难记得住),并且过度依赖IDE(RStudio...