Paradise's Blog

Rome Paradise was not built in a day.

常见回归模型评估指标总结

「 各个评估指标的优缺点及其相互关系 」

MAE(Mean Absolute Error) 顾名思义,即“绝对误差的均值”: 使用 MAE 指标的优点是,计算出的误差指标的量纲与目标变量一致,并且对离群值不敏感。缺点则是由于其函数不可微,不能作为损失函数,因此在不能作为优化器。如果需要最小化 MAE 来拟合回归模型,需要引入其他优化器,如梯度下降。 MSE(Mean Squared Error) 顾名思义,即“平方...

介绍几款在线编程工具

「 无需编译环境开始 python 编程以及共享代码 」

有时候个人电脑不在身边,又需要处理一些工作,这时候可能需要在朋友的电脑或者公用电脑上操作数据。又或者要将自己写的代码以 notebook 的形式分享给 co-worker,这时就需要用到以下总结的几个直接在浏览器里进行 Python 编程的工具。(均可免费使用,也有相应的增值服务) 以下均凭个人感受信口雌黄,不够准确。感兴趣的读者应该自己去实践了解。 一、简介 Kesci 这...

Overview of Data Distributions

「 数据分布概述 」

By Madalina Ciortan, Data scientist, PhD researcher in bioinformatics at ULB. There are over 20 different types of data distributions (applied to the continuous or the discrete space) commonly used in data science to model various types of phenomena. They also have many interconnections, which allow us to group them in a family of distributions. A great blog post proposes the following visuali...

餐饮市场分析(下)

茶饮产品市场分析网站展示

看过的朋友,还记得这个 Topic 的 上篇 吗?下篇它终于来了!(其实下篇没必要写,需要传达的信息全在以下项目中了,只是有点强迫症,有‘上’就要有‘下’…) 先睹为快: https://paradiseeee.github.io/AnalyticsDashboard 关于展示的内容和开发过程的介绍直接看 AnalyticsDashboard 项目的 README 即可,项目...

PyEcharts 学习总结

「 如何用 pyecharts 绘制一切你想象得到的交互式图表? 」

pyecharts 分为 v0.5.x 和 v1.0.0+ 两个版本,这篇总结针对新版本。 本文不包含基础例子的演示,主要记录一些细节方面的理解。简介中推荐的网站有相关示例。 一、简介 – Echarts & PyEcharts Echarts 是一个基于 JavaScript 的图表库,用于在 HTML 中生成可交互的图表。关于更多 js 图表库可以参考 CS...

Bokeh 绘图入门

「 Bokeh 绘图基础以及常用绘图功能 」

Reference | Getting started with Bokeh – Medium Post 在这篇文章中,从最基本的绘图开始,逐步学习 Bokeh 中常用的绘图功能,目标是能满足大部分基础的绘图需求。 一、绘图基础 创建一个空白画布,并在浏览器中显示结果或者保存到本地: 1 2 3 4 5 6 7 8 import bokeh import bokeh.io i...

餐饮市场分析(上)

以茶饮为例 研究某一类餐饮产品的市场概况

一、数据需求 使用美团搜索商品返回的数据。 首先进入美团首页,切换到对应城市,并搜索感兴趣的关键词。接下来尝试翻页获取更多数据,点击下一页时发现页面地址没变,并且浏览器发送了一批请求。选定对应的范围,容易找到下图中的数据就是加载出来的商家信息,以 .json 格式返回。 该数据的请求地址为: https://apimobile.meituan.com/group/v4/poi/pc...

超市零售数据可视化分析

「 Plotly + Cufflinks + Pandas 绘图指南 」

项目首次发布于 Kesci 上 – 超市零售数据分析。感兴趣的可以直接上去 Fork 之后自己做。由于上面只能用 Jupyter Notebook,而且还没有权限 DIY 工作环境,不好玩。于是线下重新做一下。 项目数据来自 Kaggle:https://www.kaggle.com/jr2ngb/superstore-data,包含全球范围内的大型超市四年间的零售订单数据,有 24 个字...

网页视频弹幕爬取

「 获取网页 API 的基本方法 」

网页视频弹幕获取 平时逛博客经常看到有关视频弹幕的数据分析文章,可以看到从一些热门视频的弹幕和评论数据中可以分析出一些有意思的结论。于是来研究一下获取网站视频弹幕数据的一般方法。可以参考此前的爬虫基础知识总结: Python 爬虫快速入门(上) Python 爬虫快速入门(下) 一、浏览器调试模式获取 API 以 Bilibili 为例,首先打开一个视频。这里随便在首页找一个...

Matplotlib 绘制动画入门

「 使用 matplotlib.animation 可视化数据变化趋势 」

参考文章 官方文档 一、两种类型的动画绘制 第一类: blit=False 根据绘制动画的逻辑,大体分为两类,主要由 matplolib.animation.FuncAnimation 类的 blit 参数确定: 简单来说就是,当使用默认参数时,每一帧都会保留在画布上,与后来绘制的帧混合显示。这时适用于展示长度在改变的数据的变化趋势,例如某一指标的时序数据。或者...