Yet Another Insignificant Blog in Data Science

我究竟拿时间换了什么

tool of choice for data science

Python Tool of Choice for Data Science Editors Jupyter Notebook Github Atom Visual Sdutio Code Data Manipulate Pandas Numpy ...

PyTorch Cookbook - 常用代码段整理

整理自知乎 - 张皓:https://zhuanlan.zhihu.com/p/59205847 需要用到的包 import collections import os import shutil import tqdm import numpy as np import PIL.Image import torch import torchvision ...

Improving model performance with mean target encoding

在进行监督学习时,我们经常要处理分类特征。也就是将字符转变成一个计算机能识别的数值表示。除了LightGBM, Catboost之类的算法在内部有自动encoding的机制之外,现在大多数机器学习算法都要求输入数据是数值的。 有很多方法可以实现Encoding Label encoding 为每个类别选择一个任意的数字 One-hot encodin...

Scorecard Development: A Python Case Study

Scorecard Development: A Python Case Study Lending Club是全球最大的撮合借款人和投资人的线上金融平台,它利用互联网模式建立了一种比传统银行系统更有效率的、能够在借款人和投资人之间自由配置资本的机制。 这里下载了2018年第1季度-2018年第4季度的数据,在python内构建评分卡模型 原始数据集的下载地址为:...

Roadmap to python data science

这篇文章参考自外文learning-path-data-science-python,知乎大V也曾将其翻译成中文,并曾经在微博上被大量转发、收藏。这里为了给数据分析方面的Python新手提供一个完整的学习路径,我总结自己过去一段时间的学习经验,对所需学习的利用python进行数据分析的所有步骤完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中的所有内容,你可以...

Learning from Imbalanced Classes

最近参加了一次阿里算法岗的笔试,其有一个项目:目标变量极端不平衡(Imbalance)分布下的分类预测,这种极端分布在现实生活中其实很常见,比如欺诈、疾病诊断,在这种情况下,如何得到一个不错的分类器? 一般刚开始接触机器学习的人,接触到的数据都是非常干净,非常平衡的数据,比如以下的二分类数据: 分类算法的目标一般是学习一种分类方法,能将上面两种数据分开,通...

My blog gets hacked

It’s been a while since I last blogged. Many things happened in this time and it’s difficult for me to write just a single word. 而就在最近,当我打开博客的时候,发现一片漆黑,原来的博客不见了,只剩下下面漆黑一片,再加上印尼猴子留下的几个字。...

Use %IF-%THEN-%ELSE constructs in open code

SAS programmers have long wanted the ability to control the flow of their SAS programs without having to resort to complex SAS macro programming. With SAS 9.4 Maintenance 5, use %IF-%THE...

不会爬虫的分析师不是好厨子

在现实世界里,数据的获取有时候是一个比较难的点,这时候就需要通过各种黑科技来获取正常途径得不到的数据源来,比如爬虫。 最近工作需要从百科以及CFDA上面爬取一些数据,这里对爬虫做一些总结~ 什么爬虫 简而言之,爬虫是使用任何技术手段,批量获取网站信息的一种方式。 而爬虫与普通爬取不同在于:是否批量。 爬虫的原理 当我们在浏览器中输入一个url后回车,后台会发生什么...

[啤酒与尿不湿]之关联规则

沃尔玛一家分店的营销经理对超市的销售数量进行设定跟踪,有一次他发现了一个>很奇怪的现象:啤酒与尿不湿的销量在周末总会出现成比例增长。他们立即对这个> 现象进行了分析和讨论,并且派出专门的人员在卖场内进行全天候的观察。他们发现这些顾客有几个共同的特点: 一般是周末出现这种情况 购买者以已婚男士为主 他们家中有孩子且不到两岁...