Yet Another Insignificant Blog in Data Science

我究竟拿时间换了什么

集成学习之Adaboost算法原理

集成学习 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器。 下图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。 个体学习器通常由一个现有的学习算法从训练数据产生,例如决策树算法、BP神经网络算法等等。 若个体学习器都属于同一类别,例如都是决策树或都是神经网络,则称该集成...

Credit Risk Scorecards: Development and Implementation Using SAS

这篇文章是«信用风险评分卡研究:基于SAS的开发与实施»的读书笔记,该笔记托管在Cmd Markdown(作业部落)上。 下面是每一章的读书笔记: 评分卡的开发过程 EDA和数据描述 预测力指标 数据准备 Logistic回归 粗分类和WOE 变量选择的方法 模型评估 评分卡刻度和实施 监测和报告 拒绝演绎 ...

支持向量机(SVM)算法原理

本文主要介绍SVM的原理以及相关算法的简单推导,其中包括SVM原理,最初表达式,标准形式以及对偶形式(二次规划问题),核函数以及软间隔。 什么是支持向量机 对于线性可分的数据,支持向量机就是条直线(对于高维数据点就算一个超平面),将不同类别的样本分开。但是能讲样本分开的平面有很多,怎样才算最完美的呢?最直观的想法是寻找对样本局部扰动容忍度最好的的超平面,这样...

SAS, 一个华丽时代的结束

借此文章来纪念我3年的SAS programmer生涯。 我从2014年左右开始接触SAS。当时还在学校里面,学院里面比较流行的工具还是SAS,记得上流行病与卫生统计课,书本后面尽是一大串的SAS代码,作为一个医学生,第一次接触到是懵逼的,不过还好SAS有很好的伪代码性质,渐渐地能够读懂这些”神秘代码”。当时铁了心要直接就业,于是每天抱着SAS书和电脑跑到图书...

A Hash Approach to Lookup Table in SAS

A follow up for my paper in PharmaSUG China 2017 Table lookup, 又称表查找,是一种常用的数据整合方法。SAS内提供了很多方法来执行表查找操作,例如使用if-then语句,format语句,merge语句,PROC SQL等等。这里介绍一种通过哈希实现的表查询方法,不仅快速,而且简洁方便。 什么是表...

Machine Learning in Action - Logistic Regression

对数几率回归(Logistic Regression),简称为对率回归,也称逻辑斯蒂回归,或者逻辑回归,是统计学习中经典的分类模型。Logisitc模型是广义线性模型中的一类。在业界有相关广泛的应用。常见的如信用评分模型,用于判定某个人的违约概率。 这里从统计学角度,引用周志华西瓜书里的思路,从线性回归开始,逐步讲Logistic回归。 线性回归 给定一个由个属性...

Machine Learning in Action - Naive Bayes

概述 朴素贝叶斯(Naive Bayes)是基于贝叶斯公式与特征条件独立的建设,估计后验概率,根据后验概率进行分类的监督学习方法。 对于给定的训练数据集,首先基于特征条件独立的假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入,利用贝叶斯公式求出后验概率最大的输出。 原理 贝叶斯定理 其中,是先验概率;$$P(x ...

Machine Learning in Action - Decision Tree

决策树模型 决策树是一种常用的分类和回归机器学习方法,是最经常使用的机器学习算法之一。这里只讨论分类决策树。 决策树模型呈树形结构,在分类问题中,表示基于特征对实例分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树学习通常包括3个步骤:特征选择、决策树的生成和剪枝。 决策树场景 这里以机器学习-周...

Machine Learning in Action - kNN

KNN 概述 这篇文章旨在介绍简单而强大的机器学习算法:k-近邻(kNN, k-NearestNeighbor) k-近邻算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。 一句话总结:近朱者赤近墨者黑! k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别...

Access SAS in Python Environment with SASPy

在2017年初,SAS官方发布了SASPy 从Github上的SAS。 SASPy是一个Python包,通过这个包,可以在Python环境中直接运行SAS代码。这对于那些对SAS和开源软件集成感兴趣的用户来说,这是一大进步。 根据我的理解,SASPy将python对象和方法转换为SAS代码,将转换后的SAS代码发送到SAS 9.4并执行,然后将结果返回给Python环...