podcast
details
.com
Print
Share
Look for any podcast host, guest or anyone
Search
Showing episodes and shows of
INWT Statistics GmbH
Shows
Data Science Deep Dive
#75: Refactoring done right: Strategien, Risiken und Best Practice
Refactoring ist ein Begriff, der oft missverstanden wird. Er bedeutet nicht, dass etwas kaputt war, sondern dass man Code strukturell verbessert, ohne sein Verhalten zu verändern. In dieser Folge sprechen wir darüber, warum Refactoring im Alltag oft notwendig ist, wie man es erkennt und richtig angeht. Wir diskutieren, wann es sinnvoll ist, Refactoring gezielt zu planen oder spontan umzusetzen – und warum Tests dabei eine zentrale Rolle spielen. Außerdem werfen wir einen Blick auf die speziellen Herausforderungen im Data-Science-Kontext und wie man Stakeholder überzeugt. Refactoring ist kein Selbstzweck, sondern ein strategischer Hebel für bessere, wartbare Software. ...
2025-06-26
50 min
Data Science Deep Dive
#75: Refactoring done right: Strategien, Risiken und Best Practice
Refactoring ist ein Begriff, der oft missverstanden wird. Er bedeutet nicht, dass etwas kaputt war, sondern dass man Code strukturell verbessert, ohne sein Verhalten zu verändern. In dieser Folge sprechen wir darüber, warum Refactoring im Alltag oft notwendig ist, wie man es erkennt und richtig angeht. Wir diskutieren, wann es sinnvoll ist, Refactoring gezielt zu planen oder spontan umzusetzen – und warum Tests dabei eine zentrale Rolle spielen. Außerdem werfen wir einen Blick auf die speziellen Herausforderungen im Data-Science-Kontext und wie man Stakeholder überzeugt. Refactoring ist kein Selbstzweck, sondern ein strategischer Hebel für bessere, wartbare Software. ...
2025-06-26
50 min
Data Science Deep Dive
#74: [PAIQ1] Predictive AI Quarterly
Predictive AI Quarterly ist unser neues Format im Data Science Deep Dive. Alle 3 Monate sprechen wir über Entwicklungen im Bereich Predictive AI - kompakt, kritisch und praxisnah. Wir starten mit einem Überblick zu den aktuellen News und Trends, danach wird's hands-on: Wir berichten, was wir selbst ausprobiert haben, was gut funktioniert hat und was nicht. **Zusammenfassung** TabPFN ist ein Foundation-Modell speziell für tabulare Daten, das Prognose- und Klassifikationsaufgaben ohne Finetuning lösen kann Finetuning-Optionen: Neben dem kostenpflichtigen Angebot von PriorLabs existiert ein Open-Source-Repo zum Finetuning von TabPFN, das aktiv weiterentwickelt wird mit TabIC...
2025-06-12
28 min
Data Science Deep Dive
#74: [PAIQ1] Predictive AI Quarterly
Predictive AI Quarterly ist unser neues Format im Data Science Deep Dive. Alle 3 Monate sprechen wir über Entwicklungen im Bereich Predictive AI - kompakt, kritisch und praxisnah. Wir starten mit einem Überblick zu den aktuellen News und Trends, danach wird's hands-on: Wir berichten, was wir selbst ausprobiert haben, was gut funktioniert hat und was nicht. **Zusammenfassung** TabPFN ist ein Foundation-Modell speziell für tabulare Daten, das Prognose- und Klassifikationsaufgaben ohne Finetuning lösen kann Finetuning-Optionen: Neben dem kostenpflichtigen Angebot von PriorLabs existiert ein Open-Source-Repo zum Finetuning von TabPFN, das aktiv weiterentwickelt wird mit TabIC...
2025-06-12
28 min
Data Science Deep Dive
#73: Korrelation vs. Kausalität: Was braucht es für fundierte Entscheidungen?
Korrelation ist nicht gleich Kausalität, und wer fundierte Entscheidungen treffen will, braucht mehr als gute Vorhersagen. In dieser Folge geht es um Confounder, Spurious Correlations und die Frage, wann Machine Learning kausale Einsichten liefern kann. Mit dabei: DoubleML als Brücke zwischen klassischer Statistik und Machine Learning. **Zusammenfassung** Unterscheidung zwischen Vorhersage und Intervention: Nur Kausalität beantwortet die "Was-wäre-wenn?"-Frage Praxisbeispiele: Bugs & Discounts, Eiskonsum & Kriminalität, Salzgehalt & Flussmenge Wichtig: Confounder identifizieren und herausrechnen, z. B. durch Zeitreihenzerlegung Einführung in Double ML: ML-Modelle für Response und Treatment, Effektschätzung über Residuen Herausforder...
2025-05-29
44 min
Data Science Deep Dive
#73: Korrelation vs. Kausalität: Was braucht es für fundierte Entscheidungen?
Korrelation ist nicht gleich Kausalität, und wer fundierte Entscheidungen treffen will, braucht mehr als gute Vorhersagen. In dieser Folge geht es um Confounder, Spurious Correlations und die Frage, wann Machine Learning kausale Einsichten liefern kann. Mit dabei: DoubleML als Brücke zwischen klassischer Statistik und Machine Learning. **Zusammenfassung** Unterscheidung zwischen Vorhersage und Intervention: Nur Kausalität beantwortet die "Was-wäre-wenn?"-Frage Praxisbeispiele: Bugs & Discounts, Eiskonsum & Kriminalität, Salzgehalt & Flussmenge Wichtig: Confounder identifizieren und herausrechnen, z. B. durch Zeitreihenzerlegung Einführung in Double ML: ML-Modelle für Response und Treatment, Effektschätzung über Residuen Herausforder...
2025-05-29
44 min
Data Science Deep Dive
#72: TabPFN: Die KI-Revolution für tabulare Daten mit Noah Hollmann
Wir sprechen mit Noah Hollman von Prior Labs, einem der Schöpfer von TabPFN (Tabular Prior Fitted Network), über dieses bahnbrechende Foundation-Modell für tabulare Daten. In der Diskussion geht es um die Funktionsweise von TabPFN, die Rolle von In-Context Learning, die Herausforderungen bei der Anwendung der Transformer-Architektur auf tabulare Daten sowie die Generierung synthetischer Daten mit strukturellen kausalen Modellen (SCMs). Darüber hinaus beleuchten wir die beeindruckenden Benchmarking-Ergebnisse und zusätzliche Features des Modells. Zum Ende hin sprechen wir über die offenen Herausforderungen von Prior Labs und welche "Moonshots" sie für die Zukunft planen. **Zusa...
2025-05-15
50 min
Data Science Deep Dive
#72: TabPFN: Die KI-Revolution für tabulare Daten mit Noah Hollmann
Wir sprechen mit Noah Hollman von Prior Labs, einem der Schöpfer von TabPFN (Tabular Prior Fitted Network), über dieses bahnbrechende Foundation-Modell für tabulare Daten. In der Diskussion geht es um die Funktionsweise von TabPFN, die Rolle von In-Context Learning, die Herausforderungen bei der Anwendung der Transformer-Architektur auf tabulare Daten sowie die Generierung synthetischer Daten mit strukturellen kausalen Modellen (SCMs). Darüber hinaus beleuchten wir die beeindruckenden Benchmarking-Ergebnisse und zusätzliche Features des Modells. Zum Ende hin sprechen wir über die offenen Herausforderungen von Prior Labs und welche "Moonshots" sie für die Zukunft planen. **Zusa...
2025-05-15
50 min
Data Science Deep Dive
#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek
In dieser Folge geht's um die Frage: Macht Größe von Large Language Models (LLMs) bei Predictive Analytics wirklich einen Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70 Milliarden Parametern – und siehe da, das 8B-Modell schlägt das große Schwergewicht. Außerdem berichten wir vom Finetuning auf einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen. Und wie immer fragen wir uns: Was ist praktisch und was ist overkill? **Zusammenfassung** Modellgröße ≠ bessere Prognosen: Das Llama-3.1-8B übertraf das größere 7...
2025-05-01
26 min
Data Science Deep Dive
#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek
In dieser Folge geht's um die Frage: Macht Größe von Large Language Models (LLMs) bei Predictive Analytics wirklich einen Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70 Milliarden Parametern – und siehe da, das 8B-Modell schlägt das große Schwergewicht. Außerdem berichten wir vom Finetuning auf einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen. Und wie immer fragen wir uns: Was ist praktisch und was ist overkill? **Zusammenfassung** Modellgröße ≠ bessere Prognosen: Das Llama-3.1-8B übertraf das größere 7...
2025-05-01
26 min
Data Science Deep Dive
#70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity
Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen über die fünf Stufen der Data Maturity – von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim „Death by Dashboards“ hängenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche Abkürzungen auf diesem Weg funktionieren – und welche eher nach hinten losgehen. **Zusammenfassung** Data Maturity Skala: Fünf Stufen von manueller Datennutzung bis zu datengetriebener Kultur mit AI/ML – viele Unternehmen stecken noch in den unteren Bereichen fest Organisationskultur als Schlüssel: Kultur best...
2025-04-17
46 min
Data Science Deep Dive
#70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity
Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen über die fünf Stufen der Data Maturity – von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim „Death by Dashboards“ hängenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche Abkürzungen auf diesem Weg funktionieren – und welche eher nach hinten losgehen. **Zusammenfassung** Data Maturity Skala: Fünf Stufen von manueller Datennutzung bis zu datengetriebener Kultur mit AI/ML – viele Unternehmen stecken noch in den unteren Bereichen fest Organisationskultur als Schlüssel: Kultur best...
2025-04-17
46 min
Data Science Deep Dive
#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch
AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert. Zusammenfassung AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonberei...
2025-04-03
47 min
Data Science Deep Dive
#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch
AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert. Zusammenfassung AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonberei...
2025-04-03
47 min
Data Science Deep Dive
#68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme
Daten(banken) versionieren – klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Änderungen große Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have für Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt für jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet. **Zusammenfassung** Schema-Versionierung ist essenziell, um Änderungen an Datenbanken nachvollziehbar und reibungslos ins Deployment einzubinden Fehlende Versionierung kann zu kaputten Prozessen führen, wenn Schema-Än...
2025-03-20
41 min
Data Science Deep Dive
#68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme
Daten(banken) versionieren – klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Änderungen große Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have für Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt für jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet. **Zusammenfassung** Schema-Versionierung ist essenziell, um Änderungen an Datenbanken nachvollziehbar und reibungslos ins Deployment einzubinden Fehlende Versionierung kann zu kaputten Prozessen führen, wenn Schema-Än...
2025-03-20
41 min
Data Science Deep Dive
#67: "It works on my machine" war gestern – Docker Best Practices für Data Science
Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. Früher war Deployment ein mühsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen Rückfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhängig vom Host-System. Warum Containerisierung für Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfährst du in dieser Folge! Zusammenfassung Früher war Deployment umständlich: lange Setup-Anleitungen, inkompatible Umgebungen, viele Rückfragen Virtuelle Maschinen haben das Problem teilweise gelöst, sind aber ressourcenintensiv und unflexibe...
2025-03-06
34 min
Data Science Deep Dive
#67: "It works on my machine" war gestern – Docker Best Practices für Data Science
Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. Früher war Deployment ein mühsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen Rückfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhängig vom Host-System. Warum Containerisierung für Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfährst du in dieser Folge! Zusammenfassung Früher war Deployment umständlich: lange Setup-Anleitungen, inkompatible Umgebungen, viele Rückfragen Virtuelle Maschinen haben das Problem teilweise gelöst, sind aber ressourcenintensiv und unflexibe...
2025-03-06
34 min
Data Science Deep Dive
#66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler
Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns Verstärkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden über typische Klischees und warum diese zu Konflikten führen. Gemeinsam sprechen wir darüber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können – statt sich gegenseitig auszubremsen. Zusammenfassung Klischees und Konflikte: Stereotype über Data Scientists (Jupyter-Fans, Doktortitel) und Developer (Perfektionismus, Black-Box-Furcht) Teamorganisation: Cross-funktionale Teams vs. getrennte Abteilungen (Vor- und Nachteile, Agenturmodell) Typische Herausforderungen: Übergabe von Prototypen an die En...
2025-02-20
1h 03
Data Science Deep Dive
#66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler
Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns Verstärkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden über typische Klischees und warum diese zu Konflikten führen. Gemeinsam sprechen wir darüber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können – statt sich gegenseitig auszubremsen. Zusammenfassung Klischees und Konflikte: Stereotype über Data Scientists (Jupyter-Fans, Doktortitel) und Developer (Perfektionismus, Black-Box-Furcht) Teamorganisation: Cross-funktionale Teams vs. getrennte Abteilungen (Vor- und Nachteile, Agenturmodell) Typische Herausforderungen: Übergabe von Prototypen an die En...
2025-02-20
1h 03
Data Science Deep Dive
#65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt
Punktprognosen sind was für Leute, die gerne enttäuscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. Außerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven Ansätzen zur Bestimmung der Unsicherheit ein. Zusammenfassung Warum Unsicherheiten unverzichtbar sind (Beispiel Wetter-, Wahl-, Bewerberprognosen) Klassische Statistik: Konfidenzintervall vs. Prediction Intervall Bayesianische Sicht: Glaubwürdigkeitsintervalle ML-Methoden ohne Verteilungsannahmen: Bootstrapping & Conformal Predictions Rechenaufwand vs. Modellannahmen Data Literacy als Schlüssel zum richti...
2025-02-06
28 min
Data Science Deep Dive
#65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt
Punktprognosen sind was für Leute, die gerne enttäuscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. Außerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven Ansätzen zur Bestimmung der Unsicherheit ein. Zusammenfassung Warum Unsicherheiten unverzichtbar sind (Beispiel Wetter-, Wahl-, Bewerberprognosen) Klassische Statistik: Konfidenzintervall vs. Prediction Intervall Bayesianische Sicht: Glaubwürdigkeitsintervalle ML-Methoden ohne Verteilungsannahmen: Bootstrapping & Conformal Predictions Rechenaufwand vs. Modellannahmen Data Literacy als Schlüssel zum richti...
2025-02-06
28 min
Data Science Deep Dive
#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?
Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderung...
2025-01-23
40 min
Data Science Deep Dive
#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?
Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderung...
2025-01-23
40 min
Data Science Deep Dive
#63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya
„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen. Zusammenfassung Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection Nachhalti...
2025-01-09
42 min
Data Science Deep Dive
#63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya
„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen. Zusammenfassung Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection Nachhalti...
2025-01-09
42 min
Data Science Deep Dive
#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus! Zusammenfassung Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python Features: C...
2024-12-19
21 min
Data Science Deep Dive
#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus! Zusammenfassung Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python Features: C...
2024-12-19
21 min
Data Science Deep Dive
#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte
Zusammenfassend unsere Must-Haves: Datenbank / DWH Lösung zur Datenvisualisierung Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web) Versionskontrolle / CI/CD Deployment-Lösung Trennung von Entwicklungs- und Produktivumgebung Monitoring für Modell & Ressourcen Verwandte Podcast-Episoden Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? Folge #21: Machine Learning Operations (MLOps) Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack Folge #35: Erfolgsfaktoren für Machine Learning...
2024-12-05
42 min
Data Science Deep Dive
#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte
Zusammenfassend unsere Must-Haves: Datenbank / DWH Lösung zur Datenvisualisierung Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web) Versionskontrolle / CI/CD Deployment-Lösung Trennung von Entwicklungs- und Produktivumgebung Monitoring für Modell & Ressourcen Verwandte Podcast-Episoden Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? Folge #21: Machine Learning Operations (MLOps) Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack Folge #35: Erfolgsfaktoren für Machine Learning...
2024-12-05
42 min
Data Science Deep Dive
#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft! ***Links*** #4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d https://de.wikipedia.org/wiki/Hype-Zyklus Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
2024-11-21
41 min
Data Science Deep Dive
#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft! ***Links*** #4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d https://de.wikipedia.org/wiki/Hype-Zyklus Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
2024-11-21
41 min
Data Science Deep Dive
#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen
Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge. ***Links*** #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7 #28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we...
2024-11-07
18 min
Data Science Deep Dive
#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen
Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge. ***Links*** #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7 #28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we...
2024-11-07
18 min
Data Science Deep Dive
#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer
In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben. ***Links*** Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben...
2024-10-10
51 min
Data Science Deep Dive
#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer
In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben. ***Links*** Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben...
2024-10-10
51 min
Data Science Deep Dive
#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?
Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. ***Links*** Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/de Business Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognose Bundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosen Podcast Learning...
2024-09-26
25 min
Data Science Deep Dive
#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?
Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. ***Links*** Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/de Business Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognose Bundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosen Podcast Learning...
2024-09-26
25 min
Data Science Deep Dive
#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest. **Links** Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
2024-08-29
51 min
Data Science Deep Dive
#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest. **Links** Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
2024-08-29
51 min
Data Science Deep Dive
#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. ***Links*** Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4) it-agile Webseite https://www.it-agile.de/ Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team...
2024-08-15
1h 12
Data Science Deep Dive
#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. ***Links*** Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4) it-agile Webseite https://www.it-agile.de/ Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team...
2024-08-15
1h 12
Data Science Deep Dive
#52: In-process Datenbanken und das Ende von Big Data
In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. ***Links*** DuckDB: https://duckdb.org/ MotherDB: https://motherduck.com/ Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/ Fragen, Feedback und Themenwünsche gern an podc...
2024-08-01
41 min
Data Science Deep Dive
#52: In-process Datenbanken und das Ende von Big Data
In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. ***Links*** DuckDB: https://duckdb.org/ MotherDB: https://motherduck.com/ Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/ Fragen, Feedback und Themenwünsche gern an podc...
2024-08-01
41 min
Data Science Deep Dive
#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science
Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen. ***Links*** Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/ The MLOps Podcast (english): https://podcast.mlops.community/ Practical AI (english): https://changelog.com/practicalai Software Engineering Radio Podcast (english): https://se-radio.net/ Data Enginee...
2024-07-18
46 min
Data Science Deep Dive
#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science
Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen. ***Links*** Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/ The MLOps Podcast (english): https://podcast.mlops.community/ Practical AI (english): https://changelog.com/practicalai Software Engineering Radio Podcast (english): https://se-radio.net/ Data Enginee...
2024-07-18
46 min
Data Science Deep Dive
Ankündigung: Unser Podcast bekommt einen neuen Namen!
Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden! Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind. Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über al...
2024-07-11
01 min
Data Science Deep Dive
Ankündigung: Unser Podcast bekommt einen neuen Namen!
Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden! Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind. Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über al...
2024-07-11
01 min
Data Science Deep Dive
#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?
Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. ***Links*** Blogartikel: Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern #27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? https://inwt.podbean.com/e/27...
2024-07-04
38 min
Data Science Deep Dive
#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?
Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. ***Links*** Blogartikel: Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern #27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? https://inwt.podbean.com/e/27...
2024-07-04
38 min
Data Science Deep Dive
#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing
Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. ***Links*** Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/ Impact Distillery: https://www.impactdistillery.com/ kaleidemoskop: https://kaleidemoskop.de/ DBU University of Applied Sciences: https://dbuas.de/ Buch "Data Science Management" von Marc...
2024-06-13
1h 10
Data Science Deep Dive
#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing
Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. ***Links*** Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/ Impact Distillery: https://www.impactdistillery.com/ kaleidemoskop: https://kaleidemoskop.de/ DBU University of Applied Sciences: https://dbuas.de/ Buch "Data Science Management" von Marc...
2024-06-13
1h 10
Data Science Deep Dive
#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen
Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten. ***Links*** - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/cr...
2024-05-30
1h 02
Data Science Deep Dive
#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen
Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten. ***Links*** - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/cr...
2024-05-30
1h 02
Data Science Deep Dive
#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak
In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein. ***Links:*** Website von inwt: https://www.inwt-statistics.de Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/ Website von Tobias Sterbak: https://tobiassterbak.com...
2024-05-16
46 min
Data Science Deep Dive
#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak
In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein. ***Links:*** Website von inwt: https://www.inwt-statistics.de Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/ Website von Tobias Sterbak: https://tobiassterbak.com...
2024-05-16
46 min
Data Science Deep Dive
#46: Strategien zur Performance-Optimierung in R
R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können. ***Links:*** Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71 Bl...
2024-05-02
24 min
Data Science Deep Dive
#46: Strategien zur Performance-Optimierung in R
R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können. ***Links:*** Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71 Bl...
2024-05-02
24 min
Data Science Deep Dive
#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams
Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy! **Links** Buch: Story Telling with Data https://www.storytellingwithdata.com/books Stephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/ Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ Feedback & Themenwünsche gern an: podcas...
2024-04-18
49 min
Data Science Deep Dive
#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams
Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy! **Links** Buch: Story Telling with Data https://www.storytellingwithdata.com/books Stephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/ Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ Feedback & Themenwünsche gern an: podcas...
2024-04-18
49 min
Data Science Deep Dive
#44: Lineare Regression in der Praxis – Oldie oder Goldie?
Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis. **Links:** [Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression [Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression [Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlen Fragen, Feedback und Themenwünsche gern an...
2024-04-04
40 min
Data Science Deep Dive
#44: Lineare Regression in der Praxis – Oldie oder Goldie?
Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis. **Links:** [Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression [Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression [Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlen Fragen, Feedback und Themenwünsche gern an...
2024-04-04
40 min
Data Science Deep Dive
#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. **Links:** Spurious Correlations: https://www.tylervigen.com/spurious-correlations inwt Website: https://www.inwt-statistics.de/
2024-03-21
41 min
Data Science Deep Dive
#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. **Links:** Spurious Correlations: https://www.tylervigen.com/spurious-correlations inwt Website: https://www.inwt-statistics.de/
2024-03-21
41 min
Data Science Deep Dive
#42: Frontends in Data Science: Welches Visualisierungstool ist das Richtige?
Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. ***Links*** Dash: https://dash.plotly.com/ Shiny: https://shiny.posit.co/ Vue.js: https://vuejs.org/ Fragen, Feedback und Themenwünsche gern an: podcast...
2024-03-07
28 min
Data Science Deep Dive
#42: Frontends in Data Science: Welches Visualisierungstool ist das Richtige?
Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. ***Links*** Dash: https://dash.plotly.com/ Shiny: https://shiny.posit.co/ Vue.js: https://vuejs.org/ Fragen, Feedback und Themenwünsche gern an: podcast...
2024-03-07
28 min
Data Science Deep Dive
#41: Strategien zur Performance-Optimierung in Python
Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. ***Links:*** inwt Website: https://www.inwt-statistics.de/
2024-02-22
27 min
Data Science Deep Dive
#41: Strategien zur Performance-Optimierung in Python
Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. ***Links:*** inwt Website: https://www.inwt-statistics.de/
2024-02-22
27 min
Data Science Deep Dive
#40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech
Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann. ***Links*** - Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/ - Min...
2024-02-08
58 min
Data Science Deep Dive
#40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech
Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann. ***Links*** - Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/ - Min...
2024-02-08
58 min
Data Science Deep Dive
#39: Death by Microservices
Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist. ***Links:*** - denodo https://www.denodo.com/de - YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ - YouTube: When To Use Micro...
2024-01-26
50 min
Data Science Deep Dive
#39: Death by Microservices
Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist. ***Links:*** - denodo https://www.denodo.com/de - YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ - YouTube: When To Use Micro...
2024-01-26
50 min
Data Science Deep Dive
#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen
Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann. *** Links *** - inwt Website: https://www.inwt-statistics.de/
2024-01-11
26 min
Data Science Deep Dive
#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen
Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann. *** Links *** - inwt Website: https://www.inwt-statistics.de/
2024-01-11
26 min
Data Science Deep Dive
#37: Deep Learning zur Erkennung von Hochwasser auf Satellitenbildern mit Philip Popien von Floodbase
Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells. ***Links*** - inwt Website: https://www.inwt-statistics.de/ - Floodbase Website: https://www.floodbase.com/ - Philip Popien bei LinkedIn: https://www.linkedin.com/in/p...
2023-12-07
56 min
Data Science Deep Dive
#37: Deep Learning zur Erkennung von Hochwasser auf Satellitenbildern mit Philip Popien von Floodbase
Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells. ***Links*** - inwt Website: https://www.inwt-statistics.de/ - Floodbase Website: https://www.floodbase.com/ - Philip Popien bei LinkedIn: https://www.linkedin.com/in/p...
2023-12-07
56 min
Data Science Deep Dive
#36: Der Data Mesh Hype und was davon bleibt
Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. ***Links:*** - inwt Website: https://www.inwt-statistics.de/ - Blog: Data Mesh Principles and Logical Arch...
2023-11-23
53 min
Data Science Deep Dive
#36: Der Data Mesh Hype und was davon bleibt
Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. ***Links:*** - inwt Website: https://www.inwt-statistics.de/ - Blog: Data Mesh Principles and Logical Arch...
2023-11-23
53 min
Data Science Deep Dive
#35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida
Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen. *** Links *** - inwt Website https://www.inwt-statistics.de/ - dida Website https://dida.do/de - dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/ - Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/ph...
2023-11-09
45 min
Data Science Deep Dive
#35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida
Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen. *** Links *** - inwt Website https://www.inwt-statistics.de/ - dida Website https://dida.do/de - dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/ - Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/ph...
2023-11-09
45 min
Data Science Deep Dive
#34: Was ist Attribution im Online Marketing und lohnt sie sich noch?
Mit Attribution kann das Marketingbudget effektiv und zielgerichtet eingesetzt werden. Damit kann die Wirkung von Werbemaßnahmen auf Mikroebene gemessen und diese Erkenntnisse zur Maximierung des ROI genutzt werden. Wir sprechen über Datenbasis und mögliche Kontaktpunkte einer Attribution, aktuelle Herausforderungen, wie beispielsweise Cross Device & DSGVO, Ansätze zur Attribution, von Heuristiken wie Last Contact bis hin zu statistischen Ansätzen wie logistische Regression und Survival Modelle. *** Links *** inwt Website https://www.inwt-statistics.de/ inwt bei LinkedIn https://www.linkedin.com/company/inwt-statistics/mycompany/ White Paper zum Thema Attribution "Von einfachen Heuristiken zu optimal...
2023-10-26
50 min
Data Science Deep Dive
#34: Was ist Attribution im Online Marketing und lohnt sie sich noch?
Mit Attribution kann das Marketingbudget effektiv und zielgerichtet eingesetzt werden. Damit kann die Wirkung von Werbemaßnahmen auf Mikroebene gemessen und diese Erkenntnisse zur Maximierung des ROI genutzt werden. Wir sprechen über Datenbasis und mögliche Kontaktpunkte einer Attribution, aktuelle Herausforderungen, wie beispielsweise Cross Device & DSGVO, Ansätze zur Attribution, von Heuristiken wie Last Contact bis hin zu statistischen Ansätzen wie logistische Regression und Survival Modelle. *** Links *** inwt Website https://www.inwt-statistics.de/ inwt bei LinkedIn https://www.linkedin.com/company/inwt-statistics/mycompany/ White Paper zum Thema Attribution "Von einfachen Heuristiken zu optimal...
2023-10-26
50 min
Data Science Deep Dive
#31: Ist R eigentlich tot?
Vor 10 Jahren haben noch alle Mitarbeitenden bei INWT in R programmiert, heute ist das anders. Python läuft R den Rang ab. Wir reflektieren über die Unterschiede der beiden Programmiersprachen und versuchen eine Einschätzung darüber zu geben, wie es mit R weitergehen wird.
2023-08-31
45 min
Data Science Deep Dive
#31: Ist R eigentlich tot?
Vor 10 Jahren haben noch alle Mitarbeitenden bei INWT in R programmiert, heute ist das anders. Python läuft R den Rang ab. Wir reflektieren über die Unterschiede der beiden Programmiersprachen und versuchen eine Einschätzung darüber zu geben, wie es mit R weitergehen wird.
2023-08-31
45 min
Data Science Deep Dive
#26: A/B-Testing: Erkenntnisse statt Bauchgefühl
A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt. Links: https://www.inwt-statistics.com/blog/ab-testing https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test
2023-06-22
32 min
Data Science Deep Dive
#26: A/B-Testing: Erkenntnisse statt Bauchgefühl
A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt. Links: https://www.inwt-statistics.com/blog/ab-testing https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test
2023-06-22
32 min
Data Science Deep Dive
#19: Data Science und Story Telling
Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können. Links: Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/ Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/ Die vorgestellten Konzepte...
2023-03-02
29 min
Data Science Deep Dive
#19: Data Science und Story Telling
Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können. Links: Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/ Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/ Die vorgestellten Konzepte...
2023-03-02
29 min
Data Science Deep Dive
#18: Big Data Erfolgsgeschichten
In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte. Links: inwt Blog https://www.inwt-statistics.de/blog/tag/Big-Data.html Episode #1: Big Data Hype https://www.podbean.com/ew/pb-dgbkn-12350e3 Big Five (Fünf-Faktoren-Modell) https://de.wikipedia.org/wiki/Big_Five_(Psychologie) Google Flu Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends Target Story: How companies Learn Your Secrets by Charles Duhigg https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html Cambridge Analytica https://de.wikipedia.o...
2023-02-16
39 min
Data Science Deep Dive
#18: Big Data Erfolgsgeschichten
In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte. Links: inwt Blog https://www.inwt-statistics.de/blog/tag/Big-Data.html Episode #1: Big Data Hype https://www.podbean.com/ew/pb-dgbkn-12350e3 Big Five (Fünf-Faktoren-Modell) https://de.wikipedia.org/wiki/Big_Five_(Psychologie) Google Flu Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends Target Story: How companies Learn Your Secrets by Charles Duhigg https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html Cambridge Analytica https://de.wikipedia.o...
2023-02-16
39 min
Data Science Deep Dive
#17: Use Case - Kundensegmentierung
Im Online Marketing und Customer Relation Management kann man nicht alle Kund*innen über einen Kamm scheren, aber sich auch nicht um jede Kund*in individuell kümmern. Der goldene Mittelweg ist die Kundensegmentierung, über die wir in dieser Episode ausführlich sprechen. Sie erlaubt eine optimale Aussteuerung von Werbemitteln und zeitlichen Ressourcen während Kund*innen gezielt und bedürfnisgerecht adressiert werden können. Links: Business Case Kundensegmentierung: https://www.inwt-statistics.de/business-cases/kundensegmentierung.html White Paper Download https://www.inwt-statistics.de/business-cases/kundensegmentierung.html?file=files/INWT/downloads/white_paper/INWT_White_Paper_Kundensegmentierung.pdf
2023-02-02
46 min
Data Science Deep Dive
#17: Use Case - Kundensegmentierung
Im Online Marketing und Customer Relation Management kann man nicht alle Kund*innen über einen Kamm scheren, aber sich auch nicht um jede Kund*in individuell kümmern. Der goldene Mittelweg ist die Kundensegmentierung, über die wir in dieser Episode ausführlich sprechen. Sie erlaubt eine optimale Aussteuerung von Werbemitteln und zeitlichen Ressourcen während Kund*innen gezielt und bedürfnisgerecht adressiert werden können. Links: Business Case Kundensegmentierung: https://www.inwt-statistics.de/business-cases/kundensegmentierung.html White Paper Download https://www.inwt-statistics.de/business-cases/kundensegmentierung.html?file=files/INWT/downloads/white_paper/INWT_White_Paper_Kundensegmentierung.pdf
2023-02-02
46 min
Data Science Deep Dive
#13: Datenqualität
"Garbage In, Garbage Out" hat auch in der Data Science Praxis eine hohe Relevanz: ein Modell kann nur so gut sein, wie die Daten auf denen es basiert. In dieser Episode sprechen wir darüber, wie Probleme mit der Datenqualität aufgedeckt werden können und welche Strategien es gibt, um Datenqualität in Projekten konsequent sicherzustellen. Links: https://www.inwt-statistics.de/blog-artikel-lesen/Datenqualitaet.html
2022-12-08
37 min
Data Science Deep Dive
#13: Datenqualität
"Garbage In, Garbage Out" hat auch in der Data Science Praxis eine hohe Relevanz: ein Modell kann nur so gut sein, wie die Daten auf denen es basiert. In dieser Episode sprechen wir darüber, wie Probleme mit der Datenqualität aufgedeckt werden können und welche Strategien es gibt, um Datenqualität in Projekten konsequent sicherzustellen. Links: https://www.inwt-statistics.de/blog-artikel-lesen/Datenqualitaet.html
2022-12-08
37 min
Data Science Deep Dive
#4: Job-Profile & Arbeitsmarkt
Welche Job-Profile und Erfahrungsstufen gibt es momentan im Data-Science-Kosmos? Und wie sieht die Perspektive für suchende Unternehmen und Bewerber*innen auf dem Arbeitsmarkt aus? Diesen Fragen gehen wir in der aktuellen Episode auf den Grund. inwt Blog: Datenqualität und die Bedeutung von Data Stewardship inwt Blog: Aufbau eines starken Data Science-Teams von Grund auf
2022-07-06
1h 08
Data Science Deep Dive
#4: Job-Profile & Arbeitsmarkt
Welche Job-Profile und Erfahrungsstufen gibt es momentan im Data-Science-Kosmos? Und wie sieht die Perspektive für suchende Unternehmen und Bewerber*innen auf dem Arbeitsmarkt aus? Diesen Fragen gehen wir in der aktuellen Episode auf den Grund. inwt Blog: Datenqualität und die Bedeutung von Data Stewardship inwt Blog: Aufbau eines starken Data Science-Teams von Grund auf
2022-07-06
1h 08
Data Science Deep Dive
#3: Statistik vs. Data Science
Ist Data Science nur ein hipper Begriff für Statistik? In dieser Episode sprechen Amit und Sebastian über den Werdegang bei inwt von der Statistik hin zu Full Stack Data Science. Wir decken auf was hinter den Begriffen "Statistik" und "Data Science" steckt und klären wer im Kampf der Daten um Relevanz eigentlich die Nase vorne hat.. Schaut euch unbedingt das Video von Baba Brinkman auf YouTube an! Links: Data Science - Baba Brinkman Music Video auf YouTube Data Science Mengendiagramm von Drew Conway: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
2022-06-22
44 min
Data Science Deep Dive
#3: Statistik vs. Data Science
Ist Data Science nur ein hipper Begriff für Statistik? In dieser Episode sprechen Amit und Sebastian über den Werdegang bei inwt von der Statistik hin zu Full Stack Data Science. Wir decken auf was hinter den Begriffen "Statistik" und "Data Science" steckt und klären wer im Kampf der Daten um Relevanz eigentlich die Nase vorne hat.. Schaut euch unbedingt das Video von Baba Brinkman auf YouTube an! Links: Data Science - Baba Brinkman Music Video auf YouTube Data Science Mengendiagramm von Drew Conway: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
2022-06-22
44 min
Data Science Deep Dive
#1: Big Data Hype
In dieser Episode reden Amit und Sebastian über den Big Data Hype, in dessen Anfängen das Berufsbild des Data Scientist entstand. Hier erfährst du: was Big Data eigentlich genau ist, wie es zu dem Hype kam und was daraus geworden ist. Links 3V Definition: https://www.inwt-statistics.de/blog-artikel-lesen/Big_Data_vs_Smart_Data.html Hypothesengenerierung aus der Datenmenge: https://www.wired.com/2008/06/pb-theory/ Hype-Zyklus: https://de.wikipedia.org/wiki/Hype-Zyklus Unsere Blogartikel zum Thema "Big Data": https://www.inwt-statistics.de/blog/tag/Big-Data.html
2022-05-25
38 min
Data Science Deep Dive
#1: Big Data Hype
In dieser Episode reden Amit und Sebastian über den Big Data Hype, in dessen Anfängen das Berufsbild des Data Scientist entstand. Hier erfährst du: was Big Data eigentlich genau ist, wie es zu dem Hype kam und was daraus geworden ist. Links 3V Definition: https://www.inwt-statistics.de/blog-artikel-lesen/Big_Data_vs_Smart_Data.html Hypothesengenerierung aus der Datenmenge: https://www.wired.com/2008/06/pb-theory/ Hype-Zyklus: https://de.wikipedia.org/wiki/Hype-Zyklus Unsere Blogartikel zum Thema "Big Data": https://www.inwt-statistics.de/blog/tag/Big-Data.html
2022-05-25
38 min