写点什么

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

  • 2019-04-29
  • 本文字数:2100 字

    阅读完需:约 7 分钟

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

导读: Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。而 .NET 是由 Microsoft 开发的一种致力于敏捷开发、快速应用开发、平台无关性和网络透明化的开发平台。长久以来,.NET 开发人员无法用他们已有的知识来使用 Apache Spark,但这样尴尬的局面就要终结了。Microsoft 4 月 29 日发布了 .NET for Apache Spark 预览版。从此以后,无论你用什么语言,都可以进行数据分析了!



4 月 24 日,在 Spark+AI 峰会 上,我们很高兴地宣布推出 .NET for Apache Spark。Spark 是一种流行的开源分布式处理引擎,用于分析大型数据集。Spark 可用于处理批量数据、实时流、机器学习和即席查询(ad-hoc query)。


.NET for Apache Spark 旨在使 .NET 开发人员可以跨所有 Spark API 来访问 Apache® Spark™。到目前为止,Spark 已经可以通过 Scala、Java、Python 和 R 来访问,但尚不能通过 .NET 来访问。


我们计划在 open(作为 .NET Foundation 成员项目)中为 Apache Spark 开发 .NET,同时与 Spark 和 .NET 社区一起开发,以确保开发人员能够在这两方面都做得很好。


本文将阐述关于以下主题的更多细节:


什么是 .NET for Apache Spark?

.NET for Apache Spark 提供了高性能 API,用于使用 C# 和 F# 中的 Spark。通过这个 .NET API,开放人员可以访问 Apache Spark 的所有方面,包括 Spark SQL、DataFrame、Streaming、MLLib 等。.NET for Apache Spark 允许 .NET 开发人员重用已有的所有知识、技能、代码和库。


绑定到 Spark 的 C#/F# 语言将被编写到一个新的 Spark 互操作层上,该层提供了更容易的可扩展性。这一新的 Spark 互操作层的编写,考虑到了语言扩展的最佳实践,并针对互操作性和性能进行了优化。从长期来看,这种可扩展性可用于在 Spark 中增加对其他语言的支持。


你可以通过访问这个 提案 来了解更多关于这项工作的细节。



.NET for Apache Spark 与 .NET Standard 2.0 兼容,可以在 Linux、macOS 和 Windows 系统上使用,就像 .NET 的其余部分一样。.NET for Apache Spark 在 Azure HDInsight 中默认可用,并且可以安装在 Azure Databricks 等软件中。

.NET for Apache Spark 入门

在开始使用。NET for Apache Spark 之前,需要安装一些东西。按照 以下步骤 开始使用 .NET for Apache Spark


设置完成之后,我们可以通过三个简单的步骤在 .NET 中开始编写 Spark 应用。


在我们的第一个 .NET Spark 应用中,我们将编写一个基本的 Spark 管道,用于计算文本段中每个单词的出现次数。


// 1. Create a Spark sessionvar spark = SparkSession    .Builder()    .AppName("word_count_sample")    .GetOrCreate(); // 2. Create a DataFrameDataFrame dataFrame = spark.Read().Text("input.txt"); // 3. Manipulate and view datavar words = dataFrame.Select(Split(dataFrame["value"], " ").Alias("words")); words.Select(Explode(words["words"])    .Alias("word"))    .GroupBy("word")    .Count()    .Show();
复制代码

.NET for Apache Spark 性能

我们很高兴地宣布,.NET fro Apache Spark 的第一个预览版本在流行的 TPC-H 基准 测试中表现良好。TPC-H 基准由一组面向业务的查询组成。下图展示了 .NET Core 与 Python、Scale 在 TPC-H 查询集上的性能对比。



上图显示了 .NET for Apache Spark 与 Python 和 Scala 的每个查询性能对比。.NET for Apache Spark 对阵 Python 和 Scale 时表现出色。此外,在 UDF 性能至关重要的情况下,例如查询 1,其中在用于 Apache Spark 的 JVM 和 CLR 之间传递 3B 行的非字符串数据,就其传递速度而言,.NET 要比 Python 快上 2 倍。


同样重要的是,这是我们为 Apache Spark 开发的第一个 .NET 预览版,我们的目标是进一步致力于改进和基准测试性能(如 Arrow 优化)。你可以按照我们的说明在 Github repo 上对其进行基准测试。

.NET For Apache Spark 的下一步

今天 .NET for Apache Spark 的发布,是我们征途的第一步。以下是我们近期路线图的一些功能,请关注我们的 GitHub repo完整路线图


  • 简化入门体验、文档与示例。

  • 与 Visual Studio、Visual Studio Code、Jupyter notebooks 等开发工具进行原生整合。

  • .NET 支持用户定义的聚合函数。

  • 用于 C# 和 F# 的 .NET 惯用 API(如,使用 LINQ 编写查询)。

  • 对 Azure Databricks、Kubernetes 等开箱即用的支持。

  • 将 .NET for Apache Spark 作为 Spark Core 的部分。你可以访问此 网址 跟踪进程。

结语

.NET for Apach Spark 是我们将 .NET 打造成构建大数据应用程序的重要技术堆栈的第一步。


我们需要你的帮助来为 .NET for Apache Spark 塑造未来。我们期待你使用 .NET for Apache Spark 进行构建。你可以通过我们的 GitHub repo,向我们伸出援助之手。


https://github.com/dotnet/spark




原文链接:


https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/


2019-04-29 15:586260
用户头像

发布了 375 篇内容, 共 186.4 次阅读, 收获喜欢 945 次。

关注

评论 1 条评论

发布
用户头像
Make Microsoft Great Again !
2019-04-30 09:41
回复
没有更多了
发现更多内容

什么情况下你能接受 996

王中阳Go

Go 工作 面经

科学文献管理软件EndNote 21功能介绍 含(EndNote 21激活码)

Rose

文献管理工具 EndNote 21下载 EndNote 21破解版 EndNote 21授权码

BetterTouchTool for mac触摸板增强神器下载 bettertouchtool破解版详细使用教程

Rose

BetterTouchTool破解 BetterTouchTool教程 Mac触控板增强工具

担心异构数据库迁移踩“坑”?听听大咖们怎么说

YashanDB

yashandb 崖山数据库 崖山DB

windows11系统,Win11,windows11下载,ARM版Win11镜像

理理

Windows11 Windows系统下载 ARM版Win11镜像 Windows系统安装

flowjo 10 for mac流式细胞分析 详细安装破解教程 支持m1/m2/intel

Rose

流式细胞分析软件 FlowJo 10破解版 FlowJo Mac版 FlowJo 安装教程

IPQ9574 vs. IPQ6010 in Smart Manufacturing: Which Chipset Leads the Way?

wallyslilly

ipq9554 ipq9574

LED异型显示屏:创新设计与市场需求的完美融合

Dylan

设计 应用 LED LED显示屏 市场

Magnet for mac v2.12.0中文免激活版 支持多种不同方式的窗口布局模式

Rose

Magnet破解版 Magnet Mac下载 苹果电脑分屏软件 macOS窗口管理

Microsoft PowerPoint 2019 for Mac永久使用版 支持Inte.m1.m2.m3安装

Rose

PowerPoint 2019 ppt2019下载 PowerPoint 2019 破解

职场<火焰杯>测试开发大赛证书已开放下载!

霍格沃兹测试开发学社

领域驱动设计:问卷schema的原理

XIAOJUSURVEY

schema 领域驱动 问卷模型 领域模型 UIschema

豆包,大模型的磁力三重奏

脑极体

AI

喜加一!望繁信科技再摘「2023年度新锐技术品牌奖」

望繁信科技

流程挖掘 流程资产 流程智能 数字北极星 望繁信科技

在元宇宙与实体办公室之间,您更倾向于哪一种工作方式?

dappweb

最高可管理 10K 实例的 InstanceSet 是什么?

小猿姐

数据库 Kubernetes 云原生

Downie 4 v4.7.24最新中文版下载 永久使用 支持M1.M2.M3芯片安装

Rose

Downie 4许可证 Mac视频下载器 Downie 4下载 Downie 4使用教程

如何在苹果mac电脑畅玩原神游戏?playcover for mac你一定不要错过了

理理

原神 Mac软件 playcover iOS软件

Mac远程连接软件 microsoft remote desktop苹果汉化版

理理

远程桌面连接 microsoft remote desktop 微软远程软件mac版

Riot Platforms 报告称,由于比特币挖矿量下降,损失了 8440 万美元

dappweb

微软Azure遭遇DDoS攻击,全球云服务再次敲响警钟!

网络安全服务

微软 azure 云服务 DDoS DDoS 攻击

职场<火焰杯>测试开发大赛证书已开放下载!

测试人

软件测试

IntelliJ IDEA 2019 mac破解版 含IDEA 2019永久密钥 附IDEA 2019中文版设置教程

Rose

IntelliJ IDEA 2019 IntelliJ IDEA 2019密钥 编程软件 IDEA 2019

品牌与分类:解析京东商品详情API中的品牌与分类信息

技术冰糖葫芦

API 安全 API 文档 API 测试 API 优先

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

百度Geek说

大模型 Llama3

告别手动错误,NineData自动化平台保障数据库变更零失误

NineData

数据库 dba NineData 变更一致性 多环境结构

链路级资损防控之资损字段防控实践|得物技术

得物技术

最佳实践 测试 资损防控 企业号2024年7月PK榜

GraphPad Prism科技绘图与数据分析

Rose

GraphPad Prism破解版 科学绘图和统计分析 GraphPad Prism下载

PDF解析,还能做得更好

合合技术团队

PDF 大模型 文档解析

视角 | 麻省理工学院提出出温度计校准法,专治AI大模型过度自信

硅纪元

ChemDraw可以绘制哪些物质?ChemDraw破解补丁版下载安装 Mac/win

Rose

ChemDraw破解版 ChemDraw化学绘图 ChemDraw下载安装

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以_大数据_Ankit Asthana_InfoQ精选文章