跳到内容

    Spark在现代企业分析栈中的利与弊

    白皮书

    Spark是一个分布式计算框架,在过去几年里,它在数据工程和分析用例中迅速流行起来. 本文简要概述了Spark在数据科学和机器学习工作流环境中的优势和劣势.

    虽然Spark在非常大的数据集上对于某些类型的工作负载非常有效, 它有一些缺点, 包括某些工作负载的性能开销, 繁琐的设置和管理, 以及来自更现代的分布式计算框架的竞争. 对于企业来说,了解Spark的优点和缺点是明智的,因此他们可以实施分析技术战略,将Spark整合到可以从中受益的项目中, 当复杂性是不必要的,甚至对业务有害时,支持替代选项.

    得到白皮书