本文,我们将通过 Python 语言包,来构建一些机器学习模型。
构建机器学习模型的模板
该 Notebook 包含了用于创建主要机器学习算法所需的代码模板。在 scikit-learn 中,我们已经准备好了几个算法。只需调整参数,给它们输入数据,进行训练,生成模型,最后进行预测。
1.线性回归
对于线性回归,我们需要从 sklearn 库中导入 linear_model。我们准备好训练和测试数据,然后将预测模型实例化为一个名为线性回归 LinearRegression 算法的对象,它是 linear_model 包的一个类,从而创建预测模型。之后我们利用拟合函数对算法进行训练,并利用得分来评估模型。最后,我们将系数打印出来,用模型进行新的预测。
# Import modules
from sklearn import linear_model
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted_variable
x_test = test_dataset_precictor_variables
# Create linear regression object
linear = linear_model.LinearRegression()
# Train the model with training data and check the score
linear.fit(x_train, y_train)
linear.score(x_train, y_train)
# Collect coefficients
print('Coefficient: \n', linear.coef_)
print('Intercept: \n', linear.intercept_)
# Make predictions
predicted_values = linear.predict(x_test)
2.逻辑回归
在本例中,从线性回归到逻辑回归唯一改变的是我们要使用的算法。我们将 LinearRegression 改为 LogisticRegression。
# Import modules
from sklearn.linear_model import LogisticRegression
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted_variable
x_test = test_dataset_precictor_variables
# Create logistic regression object
model = LogisticRegression()
# Train the model with training data and checking the score
model.fit(x_train, y_train)
model.score(x_train, y_train)
# Collect coefficients
print('Coefficient: \n', model.coef_)
print('Intercept: \n', model.intercept_)
# Make predictions
predicted_vaues = model.predict(x_teste)
3.决策树
我们再次将算法更改为 DecisionTreeRegressor:
# Import modules
from sklearn import tree
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted_variable
x_test = test_dataset_precictor_variables
# Create Decision Tree Regressor Object
model = tree.DecisionTreeRegressor()
# Create Decision Tree Classifier Object
model = tree.DecisionTreeClassifier()
# Train the model with training data and checking the score
model.fit(x_train, y_train)
model.score(x_train, y_train)
# Make predictions
predicted_values = model.predict(x_test)
4.朴素贝叶斯
我们再次将算法更改为 DecisionTreeRegressor:
# Import modules
from sklearn.naive_bayes import GaussianNB
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Create GaussianNB object
model = GaussianNB()
# Train the model with training data
model.fit(x_train, y_train)
# Make predictions
predicted_values = model.predict(x_test)
5.支持向量机
在本例中,我们使用 SVM 库的 SVC 类。如果是 SVR,它就是一个回归函数:
# Import modules
from sklearn import svm
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Create SVM Classifier object
model = svm.svc()
# Train the model with training data and checking the score
model.fit(x_train, y_train)
model.score(x_train, y_train)
# Make predictions
predicted_values = model.predict(x_test)
6.K- 最近邻
在 KneighborsClassifier 算法中,我们有一个超参数叫做 n_neighbors,就是我们对这个算法进行调整。
# Import modules
from sklearn.neighbors import KNeighborsClassifier
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Create KNeighbors Classifier Objects
KNeighborsClassifier(n_neighbors = 6) # default value = 5
# Train the model with training data
model.fit(x_train, y_train)
# Make predictions
predicted_values = model.predict(x_test)
7.K- 均值
# Import modules
from sklearn.cluster import KMeans
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Create KMeans objects
k_means = KMeans(n_clusters = 3, random_state = 0)
# Train the model with training data
model.fit(x_train)
# Make predictions
predicted_values = model.predict(x_test)
8.随机森林
# Import modules
from sklearn.ensemble import RandomForestClassifier
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Create Random Forest Classifier objects
model = RandomForestClassifier()
# Train the model with training data
model.fit(x_train, x_test)
# Make predictions
predicted_values = model.predict(x_test)
9.降维
# Import modules
from sklearn import decomposition
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Creating PCA decomposition object
pca = decomposition.PCA(n_components = k)
# Creating Factor analysis decomposition object
fa = decomposition.FactorAnalysis()
# Reduc the size of the training set using PCA
reduced_train = pca.fit_transform(train)
# Reduce the size of the training set using PCA
reduced_test = pca.transform(test)
10.梯度提升和 AdaBoost
# Import modules
from sklearn.ensemble import GradientBoostingClassifier
# Create training and test subsets
x_train = train_dataset_predictor_variables
y_train = train_dataset_predicted variable
x_test = test_dataset_precictor_variables
# Creating Gradient Boosting Classifier object
model = GradientBoostingClassifier(n_estimators = 100, learning_rate = 1.0, max_depth = 1, random_state = 0)
# Training the model with training data
model.fit(x_train, x_test)
# Make predictions
predicted_values = model.predict(x_test)
我们的工作将是把这些算法中的每一个块转化为一个项目。首先,定义一个业务问题,对数据进行预处理,训练算法,调整超参数,获得可验证的结果,在这个过程中不断迭代,直到我们达到满意的精度,做出理想的预测。
原文链接:
更多内容推荐
MoBYv2AL :结合 BOYL 和 MoCo 的主动学习算法
MoBYv2AL 将自监督应用到主动学习
2023-02-03
16 张图解带你掌握一致性哈希算法
一致性哈希是什么,使用场景,解决了什么问题?
2022-02-24
12|实战项目(二):动手训练一个你自己的扩散模型
今天,我们将通过实战的形式,一起训练一个标准扩散模型,并微调一个Stable Diffusion模型,帮你进一步加深对知识的理解。
2023-08-11
【刷题记录】18. 四数之和
重温算法 - 四数之和
2022-07-22
人工智能机器学习之 Bagging 算法
bagging(装袋算法)的集成学习方法非常简单假设我们有一个数据集,使用bootstrap sample(有放回的随机采样,每一个样本被抽中概率符合均匀分布)取了n份,作为新的训练集我们使用这n个子集分别训练一个分类器(使用分类、回归等算法)最后会得到n个分类模型。
2022-11-14
44. 支付中心
2023-09-30
算法题每日一练 --- 第 12 天:算式 900
小明的作业本上有道思考题:
2022-07-28
【思特奇杯·云上蓝桥 - 算法集训营】第 2 周 ---- 真题汇总 + 思路分享
【思特奇杯·云上蓝桥-算法集训营】第2周----真题汇总+思路分享
2022-02-15
react 源码解析 9.diff 算法
1.开篇介绍和面试题
2021-12-02
22|YouTubeDNN:召回算法的后起之秀(下)
上节课我们讲了关于YouTubeDNN的召回模型,接下来,我们来看看如何用代码来实现它。
2023-06-05
05|善用 Embedding,我们来给文本分分类
这一讲你会学到如何利用OpenAI来获取文本的Embedding,然后通过传统的机器学习方式进行训练,并评估训练的结果。
2023-03-28
【刷题记录】15. 三数之和
重温算法 - 三数之和
2022-07-19
openGauss 都做了哪些算子优化工作?
openGauss在代码里面实现了大量的算子级优化工作,为了更进一步便于用户理解,我们对这些工作进行了总结,并且对内部具体的一些算法进行详细介绍,其总结如下。
2023-04-13
4. Flink 集成 Kafka
2023-09-08
算法 ---- 字符串
StringBuilder sb = new StringBuilder();for (String aStrArr : strAtr) {sb.append(aStrArr);}String result = sb.toString();if ('0' == result.charAt(0)) {result = "0";}return result;}}
2021-11-07
【从 0 到 1 学算法】5.Bubble Sort 算法 - 下
结果:
2022-10-15
算法题每日一练 --- 第 2 天:棋盘放麦子
你一定听说过这个故事。国王对发明国际象棋的大臣很佩服,问他要什么报酬,大臣说:请在第 1 个棋盘格放 1 粒麦子,在第 2 个棋盘格放 2 粒麦子,在第 3 个棋盘格放 4 粒麦子,在第 4个棋盘格放 8 粒麦子,......后一格的数字是前一格的两倍,
2022-07-19
23|OpenClip:让我们搞清楚图片说了些什么
OpenClip:让我们搞清楚图片说了些什么?
2023-04-28
算法题每日一练: 青蛙跳台阶
一只青蛙一次可以跳上1级台阶,也可以跳上2级台阶。求该青蛙跳上一个 n (0 <= n <= 100)级的台阶总共有多少种跳法。
2023-04-26
推荐阅读
03. 改善改进的标准化流程
2023-10-17
双非渣硕,开发两年,苦刷算法 47 天,四面字节斩获 offer
2023-05-30
opencv 目标检测之 canny 算法
2023-06-26
CART 算法解密:从原理到 Python 实现
2023-11-24
27|模型工程(三):低成本领域模型方案,小团队怎么做大模型?
2023-10-20
大模型训练:数据与算法的关键融合
2023-10-17
21. 搭班子 - 揪头发
2023-10-17
电子书
大厂实战PPT下载
换一换 吴锦晟 | 首都在线 生态副总裁、TGO 鲲鹏会(上海)学员
祝海林 | Kyligence 技术合伙人、Byzer PMC
蔡超 | Mobvista 技术 VP 兼首席架构师
评论