Paradise's Blog

Rome Paradise was not built in a day.

SQL 复习笔记

「 知识点复习补充 」

函数和关键字 用法 说明 round(x, n) 四舍五入,x为浮点数,n为保留的位数 ceil(x) 向上取整 floor(x) 向下取整 truncate(x, n) ...

检验样本的正态性

「 图像方法与量化方法 」

简介 在统计学中很多推论与正态分布有关,并且很多统计量构造为满足正态分布的形式,很多分布在特定条件近似于正态分布。因此,在统计推断中经常需要判断样本的正态性。本文介绍一些常用的方法。 环境和数据准备: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import numpy as np import pandas as pd ...

Git 常用操作总结

「 版本控制与团队协作 」

版本控制系统(VCS)是管理文件和目录所做的更改的工具,每一次提交便记录下目录及其文件的内容,以及较上一版本的更改。通过这样去跟踪项目的更改过程,方便与他人进行协作,或者撤销不想要的更改以回退到此前的任一个版本。常见的有Git、SVN、CVS、RCS等,其中最常用的便是Git。 一、关键术语 本地储存库(local repository):包含项目文件的本地目录 远程储...

医药销售数据分析

「 如何从日常数据中得到关键洞察 」

一、数据源 来自某医药公司的产品销售数据,时间为 3 月到 5 月,共 48 个 Excel 表格。包含订单信息、售后信息、用户信息以及对应销售人员信息等。 加载合并后得到的原始数据如下: 二、数据清洗 清洗流程以及对应细节 加载数据源 表格形式没有统一,需要手动根据列名找到表头所在行 文件名包含日期信息,提取并...

使用 fitter 拟合数据分布

「 寻找最匹配的总体分布 」

一、简介 前面的文章中通过假设对比来检验样本是否服从泊松分布。得出的结论是总体分布不服从泊松分布,那么如何找到与总体分布最接近的分布呢?不可能一个个分布去验证。这里便可以用到 fitter 这个库。 fitter 是一个很小的第三方库,提供了一个简单的类来拟合数据的分布,亦即找出与样本最接近的理想的分布。 二、安装 首先安装 fitter,通过 pip install fitter ...

特征工程知识点总结

「 非系统且不严谨的总结 」

一、数据清洗 数据清洗部分主要包括:缺失值处理、重复值处理、异常值处理。前两者简单,要么直接删掉,要么按照我们心仪的规则进行插值填充。而对于异常值,也可以直接删掉,但是并不是最好的做法。 如何检测异常值: 基于数据分布,当总体有先验的分布时,可以确定一个允许的概率,概率密度小于该值的观测视为异常值 基于分位数(四分位),一般取上限为比 Q3 大 1.5*(Q3-Q1) 的位置...

检验样本是否服从泊松分布

「 统计分析一例 」

本文以一个订单数据为例,研究顾客购买次数的分布规律,尝试从中估计总体的分布,以对后续的订单数据进行预测或进行业绩的对比。 1 2 3 4 5 6 7 # 环境准备 import numpy as np import pandas as pd import scipy.stats as stats import matplotlib.pyplot as plt plt.rcParams['...

通过一个简单的例子理解 Python 中的多线程

「 如何实现一边写代码一边掉头发? 」

关于进程和线程的概念可以看这篇文章 什么时候需要多线程编程?简单来说就是一个程序里面有比较耗时间的操作,你希望先让它单独跑着,直接开始进行下一步的操作(Python默认情况下会按顺序一步步完成)。看一个简单的例子: 1 2 3 4 5 6 7 8 9 10 import threading import time def looper(alert): while True: ...

在前端开发中使用 Python

「 推荐给需要鼓捣前端应用又不熟悉 JS 的 Pythoner 」

简介 在使用 Python 进行数据分析的时候,经常需要创建一些动态、交互式的可视化作品。一般会用到如 Plotly、Pyecharts、Bokeh 等库,这些库都是基于前端技术创建可视化作品。所以在自定义可视化的时候,就会接触到很多前端开发的内容,但是很多 Pythoner 又不熟悉 JS 编程。这个时候就可以借助 Brython 这个库,直接在 JS 脚本里面写 Python 代码。听...

Modin 使用总结

「 通过 Modin 加速 Pandas 」

Modin 是一个 Python 第三方库,用于加速 Pandas 的 API 执行速度。原始的 Pandas 是单线程执行的,而 Modin 则重新打包了 Pandas 里面的 API,使其同时在多个内核中运行,提高硬件性能的利用率。 使用方法很简单,安装 Modin 后,将导入 pandas 的语句由 import pandas as pd 改为 from modin import p...