立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

Inside Tensorflow 之:tf.keras part1

  • 2019-11-29
  • 本文字数:1474 字

    阅读完需:约 5 分钟

Inside Tensorflow之:tf.keras part1

最近 keras 之父 Francois Chollet 分享了 TensorFlow 中 tf.keras 接口的一些高端的用法,下面就让我们了解一下:


首先,给演讲来个概况:



接下来是介绍 tf.keras 的架构:



下面首先介绍 Layer 类,这里可以看到其实在 Layer 中也可以实现 losses 和 metrics 的追踪功能。



那么 Layer 中没实现的功能包括:不涉及梯度的计算;设备指定;Tensor 变量的维度检查(必须输入和输出的 Tensor 第一维度是 batch N);类型检查



下面讲到了如何自定义自己的 Layer 类,有两种方式,下面是最简单的一种,这种方式在构建时是会根据传入的参数 input_dim 推断出 input 的 shape。



而下面这种方式,在构造时时推断不出 input 的 shape,必须等到调用该 Layer 层时才触发 build 函数去构建可训练的参数,调用 call 函数去做 inference。



当然,Layer 中也可以声明 non_trainable 的变量:



另外,Layer 也是可以嵌套使用的,就是在定义一个新的 Layer 类时去调用另外一个 Layer 类:



定义完 Layer 之后,那么怎么使用它进行 inference 和训练呢?其实流程都是大致固定的,定义 inference 结构,loss 函数,优化器。然后遍历 dataset,求梯度最后更新。



上面这些知识其实都是 Layer 的基本用法啦,让我们随着大佬的视频走的更远,飞的更高点,哈哈。


首先介绍的是在 Layer 中实现对 losses 追踪功能。




那么怎么将这个 loss 加到 loss 函数中呢?其实也就是本来 model 的 loss+model.losses(模型可追踪的 loss)



下面介绍了怎么让 Layer 类可序列化:在定义的时候加上 get_config 函数



另外在定义 Layer 的时候,call 函数有一个特别重要的参数 Training,用来指示 train 模式和非 train 模式下的区别,这对于 Batch_normalization 来说就很有用:



讲完了 Layer 类的定义,下面该轮到 Model 类的讲解了:



Model 类可以处理一些 top-level 的功能,这是 Layer 类不具备的,比如 training,saving,summary,模型可视化等



那么怎么在训练模型的时候打开 eager 模型呢(就是不会去构造 graph,速度相对会慢点):



下面介绍了 Functional Models 的概念,平时用的也最多。Functional Model 可以自动生成 call、build 和 get_config 方法




大佬总结了 Functional Model 的特点。其实最核心的点就是 Functional Model 只是去构造一个 layers 之间的 DAGs,仅仅处于 configuration 配置的层面,不会涉及到任何数据的流入和流出。个人一些使用 keras 的心得,一般比较复杂的模型,可以用 Functional Model 先去构造,然后使用 model.summary 或者 keras.utils.model_plot 函数将模型打印出来,然后去 check 下自己构造的模型有没有什么 bug。




下面介绍了在构造 Functional Model 时,内部的一些工作机制:可以看到有一个内部变量-keras_history 来追踪 Model 的构建。




那么这种 Functional Model 的构造方式有什么独特的特征呢?



首先介绍的是静态输入兼容性检查:可以看到在调用 build 的前后对输入 x 分别作了一次兼容性检查。



下面是 Whole-model 保存和 model plot 的功能:




另外,还有自动 Masking 的功能:



下面,大佬深度总结了在符号输入情况下(一般是使用 Input 来定义的输入)当你调用一个 Layer 时所有的内部流程:



最后将的是动态 Layer 类,该类因为存在动态的行为,不会被加入到 graph 中去执行。对应上个投影片的 step 6,如果是 dynamic 的 layer,则会根据静态的 shape inference 去调用 compute_output_shape 函数。



整个视频听下来感觉还是蛮有深度的,大佬就是大佬啊。


视频的链接是:


https://www.youtube.com/watch?


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/83513829


2019-11-29 08:00507

评论

发布
暂无评论
发现更多内容

Meet new Sentinel Go committers!

阿里巴巴云原生

开源 开发者 云原生 sentinel 中间件

第十一周 安全稳定总结

蓝黑

极客大学架构师训练营

年薪百万offer从何入手?这份“通关面试手册”带你轻松碾压字节面试官

比伯

Java 编程 架构 面试 计算机

架構師訓練營第 1 期 - 第 11 周總結

Panda

架構師訓練營第 1 期

解析—MyBatis在SpringBoot中动态多数据源配置

比伯

Java 编程 程序员 架构 计算机

阿里 双11 同款流控降级组件 Sentinel Go 正式 GA,助力云原生服务稳稳稳

阿里巴巴云原生

开源 开发者 云原生 中间件 双十一

话题讨论 |程序员35岁被裁,是真的吗?你离35岁还有几年?

Java_若依框架教程

话题讨论

架构师训练营第 1 期 - 第十一周总结

Todd-Lee

极客大学架构师训练营

如何利用小熊派获取MPU6050六轴原始数据

华为云开发者联盟

物联网 IoT 小熊派

阿里云Lindorm与Intel、OSIsoft共建IT & OT超融合工业数据云

许力

数据库 大数据 IoT 工业互联网 工业物联网

教你用Python自制拼图小游戏,轻松搞定熊孩子

华为云开发者联盟

Python 游戏 拼图

线程上下文切换,这些是你需要掌握的

田维常

系统上下文

一不小心,就入选Gartner魔力象限了

数据君

数据库

Linux中父进程为何要苦苦地知道子进程的死亡原因?

linux大本营

c++ Linux 后台开发 进程

第十一周 安全稳定作业

蓝黑

极客大学架构师训练营

基于区块链技术落地应用开发-食品溯源

13828808769

量化交易系统APP软件开发(现成)

系统开发

云计算领域-杨明越加入InfoQ协作平台

杨明越

程序员的真实故事

Learun

敏捷开发

CloudIDE插件在手,按时下班不愁

华为云开发者联盟

ide Cloud CloudIDE

人工智能应用实操:手把手教你用Python控制IoT智能硬件

智能物联实验室

物联网 IoT

《写给大忙人看的JAVA核心技术》.pdf

田维常

电子书

数据资产管理平台规划概要

马踏飞机747

大数据 数据治理 数据资产

追忆

刘旭东

回忆 情绪

突破容量极限:TiDB 的海量数据“无感扩容”秘籍

京东科技开发者

分布式数据库 #TiDB

云图说|AI开发难!难!难!端云协同多模态AI开发套件你需要了解一下

华为云开发者联盟

AI 分布式协同 开发

架构师训练营第 1 期 -week12

习习

今天,我们和人民大学一起干了件大事!

数据君

数据库

大企软件系统问题多?归乡名企工程师:解决很简单,分分钟做个新系统

Philips

敏捷开发

阿里巴巴内部秘密培养的“Java架构师养成计划”图谱曝光,全是干货!

Java架构追梦

Java 学习 架构 面试 阿里巴巴人才培养计划

每周学点 TARS——服务鉴权功能

TARS基金会

DevOps 后端 鉴权 TARS

Inside Tensorflow之:tf.keras part1_文化 & 方法_Alex-zhai_InfoQ精选文章