Scala Meetup: Traceable Data Entities with Spark 2.x

One of the most common abstraction for a big data platform is a “Data Lake”. Data is brought into the lake, then it’s filtered, parsed, transformed and in the process many more data assets are created. Metadata describes the data and with the growing amount of data, it is becoming more and more important and harder to properly describe the data, the schema and the data lineage.

Spark (2.x) is one of the most important tool in data engineer’s/scientist's toolbox, but currently it offers very little help how to connect the input data sources the output data sources.

At Sqooba they decided to extend spark’s built-in event mechanism to get more granular data about when data is used as an input or output for a spark application and that allows us to use event listeners to update the relevant entities on Apache Atlas to get real time Data Lineage and Metadata.

Bern Scala User Group

News

Mai 2022

Neu auf PhaenoNet

Tierbeobachtungen dokumentieren […]

Mai 2022

Eine Zusammenarbeit zwischen Tegonal und Open Food Network Schweiz

Noch mehr Support für lokale Produzentinnen und Initiativen […]

Februar 2022

2021 wurden 40% mehr Körbe ausgeliefert!

Im vergangenen Jahr 2021 wurden mit OpenOlitor […]

Januar 2022

Unterstützung von 17 Projekten

Auch im Jahr 2021 unterstützen wir eine Reihe von gemeinnützigen Projekten […]

Januar 2022

Wir verschieben unser Apéro auf später im Jahr...

Unser Apéro für Kunden, Partner, Freund*innen und Familie […]

Oktober 2021

Oliver Studer – Willkommen im Team!

Oliver Studer ist Frontend Developer und Designer […]

Dezember 2021

Perspektivenwechsel

Januar 2021

Unsere 10

Juli 2020

DNS over TLS

Mai 2020

PhaenoNet

November 2019

15 Jahre Tegonal!

September 2018

Scala Days 2018

August 2018

Scala Meetup

August 2018

Clojure

April 2018

Neue Webseite!

Zum Newsarchiv