QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

大数据是这样计算的:XLab 实例入门

  • 2016-05-21
  • 本文字数:2078 字

    阅读完需:约 7 分钟

编者按: InfoQ 开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自杨旭著《大数据是这样计算的:XLab 实例入门》中的章节“简介”,介绍大数据通用算法平台XLab。

第2 章 简介

XLab 是大数据通用算法平台,现为阿里巴巴集团内部最大的分布式算法平台,集大规模统计、机器学习、数据分析、挖掘和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。
无论你是否有大数据分析的基础,都可以通过 XLab 图形界面,轻松上手;XLab 还提供了脚本编辑执行功能,灵活方便,帮你成为大数据分析的高手。

2.1 主界面介绍

XLab 主界面分为 4 个功能区:工具栏、数据列表、窗口管理器和工作界面。各功能区的位置如图 2-1 所示。

图 2-1
接下来,我们会对各功能区进行介绍。

2.1.1 工具栏

位于 XLab 主界面的左上角,如图 2-2 所示,共有4个图标,分别为脚本编辑运行、获取帮助手册、查看标准输出和版本信息。

图 2-2
下面我们详细介绍每个图标的用法。
(1) :脚本编辑、运行。单击此图标,出现 XLab 的脚本编辑运行窗体,如图 2-3 所示,具体的功能会在后面的章节详细介绍。

图 2-3
(2) :帮助文档。XLab 会带着最新的使用文档,为 PDF 格式,单击此图标,会自动打开帮助文档,如图 2-4 所示。

图 2-4
(3) :查看 XLab 的标准输出,如图 2 5 所示。其中,“log\stdout2014_07_09_14_32_35_ 422.log”为标准输出保存的文件路径。

图 2-5
(4) :显示 XLab 的版本信息,如图 2-6 所示。

图 2-6

2.1.2 数据列表

位于 XLab 主界面的左部偏上的位置,即如图 2-7 所示的功能区域。

图 2-7
该区域用来显示用户登录时所输入的“默认 Project”中的全部数据表名称。如果用户登录时设置了“关联 Projects”,则还会显示这些 Projects 中的所有数据表名称。在实际使用中,接下来要介绍的几个小技巧可以使数据表操作更简单。
 技巧一,在输入框中输入数据表名称的部分字符,下面会自动对表名进行过滤。譬如:在输入框内输入“kddc”,则所有名称中含有“kddc”的数据表都会显示在下面,效果如图 2-8 所示。

图 2-8
 技巧二,在数据表名上单击右键,可以进行复制表名、修改表名、删除表和查看属性等操作,参见图 2-9 所示。

图 2-9
譬如选择菜单中的“属性”,得到如下显示结果(见图 2-10)。

图 2-10
可以了解各数据列的名称和类型,知道记录总数、该数据表的创建和修改时间。
 技巧三,更新数据列表,需要按 按钮。注意 XLab 不会自动更新数据列表内容,用户可根据实际需要手动更新。

2.1.3 窗口管理器

位于 XLab 主界面的左部偏下的位置,如图 2-11 所示,包括所有在工作桌面上运行的窗体列表。

图 2-11
中间树状结构显示 XLab 内部各个窗体及其对应关系。如图 2-11 中的两个数据表格窗体在树中有父子节点关系,则表示子节点对应窗体数据由父节点操作后生成。用户单击树节点可以显示\隐藏对应窗体,也可以单击下方显示\隐藏全部窗体。
2.1.4 工作界面
位于主界面的右端位置,占据了主界面的大部分区域,用来查看数据、进行分析计算、显示结果等,如图 2-12 所示。

图 2-12
注意:工作界面的大小是可调的,可以使用鼠标拖动工作界面左端的分割栏,调节主界面左右区域所占的比例;也可以单击分割栏上的黑色指向左端的三角形,将工作界面扩展至全屏。
2.2 数据查看、运行
单击数据列表中的某个数据表名称,就会在工作界面显示该数据表相应的数据,如图 2-13 所示。

图 2-13
注意窗体下方的“当前显示前 50 行(最多 10000 行)”,“最多 10000 行”是 ODPS 系统对数据访问的限制;XLab 默认显示 50 行,用户可以自由设置显示的行数。
在此数据显示窗体上,可以查看数据,还可以进行分析计算。其菜单栏上包含了大部分常用功能,具体功能如图 2-14 所示。

图 2-14

2.2.1 文本显示
用户也可用文本显示数据表的内容,但不可编辑。可以单击菜单项“表格→文本显示”,如图 2-15 所示。

图 2-15
2.2.2 复制部分数据
显示在表格中的数据,可以通过选择区域,并使用“Ctrl-C”组合键复制数据,并粘贴到其他程序。举例如下。
如图 2-16 所示,使用“Ctrl-A”组合键,选中全部显示用的数据;选择使用“Ctrl-C”组合键复制数据,并把 Excel 打开,再使用“Ctrl-V”组合键,便将选中的数据复制到了 Excel 中,如图 2-17 所示。

图 2-16

图 2-17
2.2.3 显示 / 隐藏列
当用户想隐藏某些列时,可以选择菜单项“表格→显示 / 隐藏 列”,选择隐藏的列,如图 2-18 所示。

图 2-18
单击“确定”按钮,即可得到如图 2 19 所示的数据显示。

图 2-19
还可以在数据表上选中一列,单击鼠标右键,并选择“隐藏列”,隐藏选中的列。

书籍介绍:


《大数据是这样计算的:XLab 实例入门》侧重介绍大数据分析方法和算法的应用,选取了 10 个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab 实例入门》的实例都运行在大数据算法平台 XLab 上。

2016-05-21 20:563348

评论

发布
暂无评论
发现更多内容

10个安全问题带你了解OWASP 定义的大模型应用

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

让Jira能够按工作流配置审批规则,WorkflowWise全新功能发布

龙智—DevSecOps解决方案

Jira Jira插件 WorkflowWise

点云标注的挑战与未来发展

数据堂

物联网开发技术 | 社区征文

DS小龙哥

年中技术盘点

OpenTiny 前端组件库正式开源啦!面向未来,为开发者而生

英勇无比的消炎药

开源 Vue 前端 UI组件库 angluar

促进协作、提高生产力:育碧选择Perforce Helix Core的原因

龙智—DevSecOps解决方案

游戏开发 育碧 刺客信条

MySQL 主从延迟的常见原因及解决方法

互联网工科生

MySQL 后端

活动回顾|阿里云 Serverless 技术实战与创新广州站回放&PPT下载

Serverless Devs

云计算 Serverless 弹性计算

Midjourney最强劲的对手来临,SDXL被动开源的浪潮,AI生成图片未来可期 | 社区征文

派大星

年中技术盘点

华为云开发者联盟助力培养数字化人才,加速应用构建质效提升

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 7 月 PK 榜

StoneDB 源码解读系列|查询模块流程及源码介绍——StoneDB 优化器

StoneDB

数据库 StoneDB

一站式运维管家 ChengYing 主机接入原理解析

袋鼠云数栈

开源 运维

驱动您的在线成功:解密香港云主机的关键优势

一只扑棱蛾子

香港云主机

IPD(集成产品开发)是什么?适合什么样的团队?

禅道项目管理

磨刀不误砍柴工,数据压缩,带来的可不止空间节省 | StoneDB数据库观察

StoneDB

数据库 数据压缩 StoneDB

倒计时3天,京东技术20年实践分享邀您莅临!

京东科技开发者

京东云峰会 企业号 7 月 PK 榜

华为开发者大会2023—我和“华为云”有个约会

华为云PaaS服务小智

云计算 华为云 华为开发者大会2023

OpenTiny 前端组件库正式开源啦!面向未来,为开发者而生

英勇无比的消炎药

开源 Vue 前端 UI组件库 angluar

点云标注的质量评估与优化

数据堂

OpenTiny 前端组件库正式开源啦!面向未来,为开发者而生

OpenTiny社区

开源 Vue 前端 UI组件库 angluar

自动驾驶中的点云标注:技术与应用

数据堂

大形势不好的情况下,程序员的护城河是什么?

程序员小毕

Java 程序员 互联网 后端 架构师

共探AI大模型时代下的挑战与机遇,华为云HCDE与大模型专家面对面

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

大话开源|国产数据库红海里独辟蹊径,瞧瞧StoneDB如何引领数据分析新“石”代 @石原子·叶建林

StoneDB

数据分析 数据库· StoneDB

华为云SI伙伴新路径启航,携手全面开拓市场新空间

新消费日报

为什么 MySQL 使用 B+ 树?| StoneDB数据库观察

StoneDB

MySQL 数据库 B+树

StoneDB 开源社区月刊 | 202301期

StoneDB

开源社区 StoneDB

Stable Diffusion AIGC:3步成为P图大师

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

大数据是这样计算的:XLab实例入门_大数据_杨旭_InfoQ精选文章