Poddtips för dig som vill filtrera bruset

Tycker du också att det är svårt att hänga med och filtrera bruset?
Satt nyss med en kopp kaffe vid sjön och hade lyssnat klart på ännu ett avsnitt av The Data Exchange med Ben Lorica, en klar topp-tre på min lista över värdefulla resurser för att hänga med i AI-världen. En värld som fullkomligt dränker oss i information som är svår att sortera och värdera utan en bra stunds reflektion. Därför är det bra att ha Ben, han är en kurator av rang som är extremt kunnig och rak på sak, han lindar inte in sina frågor för att vara bekväma för gästen.
Ben är tidigare Chief Data Scientist på O'Reilly och numera rådgivare till Databricks och en hel del andra startups, han har bra koll på både det tekniska och affärssidan. Han vet dessutom hur han ska styra bort gästerna från klyschor, jargong och fluff för att istället lirka fram värdefulla insikter från båda perspektiven.
Ben skriver också om dessa ämnen på Gradient Flow-bloggen där han destillerar insikterna från podden. Väl värt ett besök den också!
Här kommer några av poddens avsnitt jag nyligen lyssnat på som jag varmt kan rekommendera:
Beyond the Chatbot (Jay Alammar, Cohere)
Titta och/eller lyssna: YouTube | Apple Podcasts
Jay Alammar är Engineering Fellow på Cohere och pratar om vad som faktiskt funkar i "enterprise AI".
Små modeller, stora vinster
Jay berättar att många framgångsrika produktionssystem inte kör de största modellerna för allt. Istället använder de mindre, specialiserade modeller där det passar - vilket ger lägre kostnader, snabbare svar och mindre krav på resurser vid lokal hosting.
Ben skriver även om detta i sitt blogginlägg om A Tiered Approach to AI: The New Playbook for Agents and Workflows: de flesta agent-tasks är repetitiva, avgränsade operationer. De behöver inte samtalsbredd eller kostnaden från en stor modell. Ett logistikföretag bytte från GPT-4o-mini till Mistral-7B och sänkte kostnaden från $0.008 till $0.0006 per query. Det sparade $70,000 per månad.
"RAG på en eftermiddag"
Jay poängterar att tidigt i RAG-hypen fanns massa blogginlägg som beskrev hur enkelt det är. Nu vet vi bättre. Man måste se på det i sin helhet, det är en end-to-end pipeline där du behöver tänka på allt från hur du integrerar olika datakällor i din input, eller hur man extraherar datat för att göra det användbart - till hur du sen ska få ut något vettigt som output med allt vad det innebär i form av query rewriting, re-ranking osv. Sen lägger du på säkerhet, monitoring osv. Inte så enkelt längre.
Spårbarhet är kvalitetskontroll
Jay pratar mycket om att användare måste kunna följa hur systemet kom fram till sitt svar. Vi diskuterar detta väldigt ofta på Brikka också, det är viktigt att veta vad systemet valde för underlag/dokument och varför de valdes för att kunna härleda och förstå varför en viss output ser ut som den gör. Det kan till exempel leda till att kvalitetsproblem hittas i underlagen, eller att RAG-systemet behöver justeras.
Predictability Beats Accuracy (Anant Bhardwaj, Instabase)
Titta och/eller lyssna: YouTube | Apple Podcasts
Anant från Instabase pratar om varför förutsägbarhet är viktigare än precision för enterprise AI.
Företag vill ha förutsägbart, inte perfekt och Enterprise search suger (om du inte fixar data först)
Ett återkommande tema Anant tagit med sig: företagskunder bryr sig mer om att systemet beter sig konsekvent än att det är 5% bättre men oberäkneligt. Hur uppnår man förutsägbarhet när man använder LLMer som i sin natur inte är deterministiska?
Han säger också "I'm a big skeptic on enterprise search." - Hans poäng är rätt tydlig: Internetsökning funkar för att varje URL har en ägare. New York Times äger sina artiklar, MIT äger sin sajt. Men vem äger och kvalitetsstämplar det senaste Google Doc-utkastet i företagets drive? Vem rankar dokument internt? Ingen.
Hans "kontroversiella" åsikt: enterprise search förblir olöst tills någon löser datakvalitet. Lösningen här och nu? Börja med små, kurerade "answer engines" där någon faktiskt tar ansvar för att datat är rätt.
Ben följer upp på bloggen i The Enterprise Search Reality Check: enterprise search är inte ett AI-problem som involverar data, det är ett governance och ingenjörs-problem som råkar använda AI. Ett exempel från farma-industrin skulle kunna vara att en re-ranker konfigureras att alltid prioritera FDA-godkända dokument över interna forskningsanteckningar. Det är affärslogik, inte bara AI-magi.
Why Your AI Agent Will Fail (Evangelist Simudis, VC och corporate innovation-rådgivare)
Titta och/eller lyssna: YouTube | Apple Podcasts

Evangelist menar att många företag experimenterar med agenter, men att det inte går bra.
Problem nummer ett? Kostnader. Dyra API-anrop staplar sig på varandra, av olika anledningar.
Problem nummer två? "Rogue agents" – medarbetare bygger sina egna lösningar under radarn - säkerhetsrisk.
Problem nummer tre? Grunderna saknas, data och sök måste fungera först. Ben: "If you can't do search well, I don't know how your agents will possibly do well."
Alltså: fixa data och sök först, annars bygger du automation på trasig grund. Sen agenter som rullas ut i kontrollerad form där lösningarna sen kan optimiseras för att hålla nere kostnader.
Vad tar vi med oss från detta?
Många saker som tas upp är sådant vi diskuterar på daglig basis här på labbet, så det är lätt att känna igen sig. Men det ger också nya insikter och utmanar de "sanningar" man bygger upp över tid. Relevanta gäster i kombination med Bens stadiga vägledning genom olika problemområden, åsikter och perspektiv är en nyttig paus i labbets vardag.
En viktig aspekt som tas upp, som vi tror på väldigt mycket, är att börja där du får störst hävstång. Definiera use case, ta reda på vilket data som finns att jobba med, börja smått och iterera därifrån. Bygg inte en egen stor platform om du inte behöver det, som Jay från Cohere säger - en enterprise-stack kan ta år att bygga om man gör allt själv.
Okej, det var allt för denna gång, god lyssning!
/Johan