写点什么

大数据是这样计算的:XLab 实例入门

  • 2016-05-21
  • 本文字数:2078 字

    阅读完需:约 7 分钟

编者按: InfoQ 开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自杨旭著《大数据是这样计算的:XLab 实例入门》中的章节“简介”,介绍大数据通用算法平台XLab。

第2 章 简介

XLab 是大数据通用算法平台,现为阿里巴巴集团内部最大的分布式算法平台,集大规模统计、机器学习、数据分析、挖掘和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。
无论你是否有大数据分析的基础,都可以通过 XLab 图形界面,轻松上手;XLab 还提供了脚本编辑执行功能,灵活方便,帮你成为大数据分析的高手。

2.1 主界面介绍

XLab 主界面分为 4 个功能区:工具栏、数据列表、窗口管理器和工作界面。各功能区的位置如图 2-1 所示。

图 2-1
接下来,我们会对各功能区进行介绍。

2.1.1 工具栏

位于 XLab 主界面的左上角,如图 2-2 所示,共有4个图标,分别为脚本编辑运行、获取帮助手册、查看标准输出和版本信息。

图 2-2
下面我们详细介绍每个图标的用法。
(1) :脚本编辑、运行。单击此图标,出现 XLab 的脚本编辑运行窗体,如图 2-3 所示,具体的功能会在后面的章节详细介绍。

图 2-3
(2) :帮助文档。XLab 会带着最新的使用文档,为 PDF 格式,单击此图标,会自动打开帮助文档,如图 2-4 所示。

图 2-4
(3) :查看 XLab 的标准输出,如图 2 5 所示。其中,“log\stdout2014_07_09_14_32_35_ 422.log”为标准输出保存的文件路径。

图 2-5
(4) :显示 XLab 的版本信息,如图 2-6 所示。

图 2-6

2.1.2 数据列表

位于 XLab 主界面的左部偏上的位置,即如图 2-7 所示的功能区域。

图 2-7
该区域用来显示用户登录时所输入的“默认 Project”中的全部数据表名称。如果用户登录时设置了“关联 Projects”,则还会显示这些 Projects 中的所有数据表名称。在实际使用中,接下来要介绍的几个小技巧可以使数据表操作更简单。
 技巧一,在输入框中输入数据表名称的部分字符,下面会自动对表名进行过滤。譬如:在输入框内输入“kddc”,则所有名称中含有“kddc”的数据表都会显示在下面,效果如图 2-8 所示。

图 2-8
 技巧二,在数据表名上单击右键,可以进行复制表名、修改表名、删除表和查看属性等操作,参见图 2-9 所示。

图 2-9
譬如选择菜单中的“属性”,得到如下显示结果(见图 2-10)。

图 2-10
可以了解各数据列的名称和类型,知道记录总数、该数据表的创建和修改时间。
 技巧三,更新数据列表,需要按 按钮。注意 XLab 不会自动更新数据列表内容,用户可根据实际需要手动更新。

2.1.3 窗口管理器

位于 XLab 主界面的左部偏下的位置,如图 2-11 所示,包括所有在工作桌面上运行的窗体列表。

图 2-11
中间树状结构显示 XLab 内部各个窗体及其对应关系。如图 2-11 中的两个数据表格窗体在树中有父子节点关系,则表示子节点对应窗体数据由父节点操作后生成。用户单击树节点可以显示\隐藏对应窗体,也可以单击下方显示\隐藏全部窗体。
2.1.4 工作界面
位于主界面的右端位置,占据了主界面的大部分区域,用来查看数据、进行分析计算、显示结果等,如图 2-12 所示。

图 2-12
注意:工作界面的大小是可调的,可以使用鼠标拖动工作界面左端的分割栏,调节主界面左右区域所占的比例;也可以单击分割栏上的黑色指向左端的三角形,将工作界面扩展至全屏。
2.2 数据查看、运行
单击数据列表中的某个数据表名称,就会在工作界面显示该数据表相应的数据,如图 2-13 所示。

图 2-13
注意窗体下方的“当前显示前 50 行(最多 10000 行)”,“最多 10000 行”是 ODPS 系统对数据访问的限制;XLab 默认显示 50 行,用户可以自由设置显示的行数。
在此数据显示窗体上,可以查看数据,还可以进行分析计算。其菜单栏上包含了大部分常用功能,具体功能如图 2-14 所示。

图 2-14

2.2.1 文本显示
用户也可用文本显示数据表的内容,但不可编辑。可以单击菜单项“表格→文本显示”,如图 2-15 所示。

图 2-15
2.2.2 复制部分数据
显示在表格中的数据,可以通过选择区域,并使用“Ctrl-C”组合键复制数据,并粘贴到其他程序。举例如下。
如图 2-16 所示,使用“Ctrl-A”组合键,选中全部显示用的数据;选择使用“Ctrl-C”组合键复制数据,并把 Excel 打开,再使用“Ctrl-V”组合键,便将选中的数据复制到了 Excel 中,如图 2-17 所示。

图 2-16

图 2-17
2.2.3 显示 / 隐藏列
当用户想隐藏某些列时,可以选择菜单项“表格→显示 / 隐藏 列”,选择隐藏的列,如图 2-18 所示。

图 2-18
单击“确定”按钮,即可得到如图 2 19 所示的数据显示。

图 2-19
还可以在数据表上选中一列,单击鼠标右键,并选择“隐藏列”,隐藏选中的列。

书籍介绍:


《大数据是这样计算的:XLab 实例入门》侧重介绍大数据分析方法和算法的应用,选取了 10 个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab 实例入门》的实例都运行在大数据算法平台 XLab 上。

2016-05-21 20:563387

评论

发布
暂无评论
发现更多内容

国内好用的AI工具有哪些?这5款AI别错过!

职场工具箱

人工智能 AI 办公软件 AIGC AI生成PPT

数据库时间获取小助手:一键速查时间格式

代码忍者

打通全域变现通道,百度携手创作者、品牌挖掘内容变现"新"商机

极客天地

LED显示屏厂家如何应对行业竞争

Dylan

行业 LED display LED显示屏 竞争

如何构建安全可靠的 HarmonyOS 应用

Swift社区

HarmonyOS

如何进行需求管理

易成研发中心

需求管理

如何建设统一业务访问认证服务能力

芯盾时代

iam 统一身份认证 访问控制 访问权限

Apache Doris 3.0.3 版本正式发布

SelectDB

数据仓库 数据分析、 湖仓一体 大数据 开源 实时数据库

2025中国口腔展|2025山东国际口腔设备及材料展会

秋硕展览

去中心化交易所崛起:为什么DEX是未来加密交易的最佳选择?

chainwiseweb3

区块链技术 交易所开发 去中心化交易所 dex cex交易所

息壤商用落地,天翼云智能生花

脑极体

云计算

2025上海国际消费电子展览会(Tech G)

AIOTE智博会

消费电子展 消费电子展会 消费电子博览会 消费电子展览会

“伙伴+华为”,看见千行万业数智化的最优解

Alter

黑神话悟空是魂类游戏吗?苹果电脑怎么玩黑神话悟空

阿拉灯神丁

Mac 软件 苹果电脑 3A游戏 CrossOver 24 黑神话悟空

Fluss:面向实时分析设计的下一代流存储

阿里云大数据AI技术

大数据 flink FFA Fluss

HAP驱动智慧牧场升级,恒创融慧与圣牧高科的创新实践

明道云

商业银行基于容器云的分布式数据库架构设计与创新实践

PingCAP

数据库 #TiDB 分布式, TiDB Operator

大数据是这样计算的:XLab实例入门_大数据_杨旭_InfoQ精选文章