Allt som krävs är 5 sekunder - utmaningar med AI och talsyntes
Visste du att allt som krävs för att återskapa din röst är fem sekunders ljud?
Talsyntes är ett område inom artificiell intelligens (AI) som jobbar med att ta text och producera människoliknande ljud. Traditionellt har rösterna som produceras varit stela och robotliknande men de senaste åren har teknologin kommit väldigt långt och det har under en tid varit möjligt att återskapa röster där det finns en stor mängd ljudinformation tillgänglig.
Som ett exempel dök det bara för några veckor sedan upp en video där Hillary Clinton ger sitt stöd till den republikanska kandidaten Ron DeSantis. Det är ett exempel på en så kallad “Deep Fake”, en fejkad video och ljudfil. Väldigt svårt att avgöra äktheten utifrån bara videon.
Utvecklingen har nu kommit så långt att det med den mest moderna teknologin endast krävs ett par sekunder av ljud för att kunna återskapa en röst. Ett av de mer kända forskningsprojekten är VALL-E som tagits fram av Microsofts forskningsavdelning.
Anmärkningsvärt är att teknologin inte bara kan härma din röst på ett par sekunder - den kan också imitera känslor i rösten. Om du ger AI:n fem sekunders ljud där du pratar exalterat kommer detta efterliknas i ljudet du spelar upp. Det är ett stort steg framåt för en teknologi som länge har känts mekanisk och känslolös.
VALL-E är licensierat endast för användning inom forskning men det tog inte lång tid efter det lanserades som ett antal open-sourceprojekt var igång för att återskapa resultaten.
Utmaningen med ny teknologi
Det finns massor med spännande möjligheter med den här tekniken som vi bland annat utforskar till Klang.ai (Mer om detta i framtida blogginlägg).
Men med möjligheter kommer utmaningar. Teknologin har redan använts för att göra sofistikerade bedrägeriförsök.
- I Dubai fick en anställd ett telefonsamtal från VDn på moderbolaget som bad honom göra en överföring på en stor summa pengar.
- Mitt under den tidiga fasen av Rysslands invasion av Ukraina dök det upp inspelningar av Volodymyr Zelensky som kapitulerade. Även detta var iscensatt för att skapa falsk propaganda.
- Flera äldre personer har fått samtal från yngre släktingar som bett om pengar. Allting simulerat med avancerad röstsyntes.
Nya rutiner och högre krav på datasäkerhet
Det krävs utbildning i organisationer för att skapa medvetenhet om nya typer av bedrägerier. Alla i organisationen behöver vara medvetna om att samtal kan vara en del av ett sofistikerat bedrägeriförsök även om samtalen i sig verkar harmlösa. Se även till att använda tjänster med högt fokus på säkerhet från företag du kan bekräfta är seriösa.
Här är ett par tips som minskar risken att bli bedragen
- Dela inte konton eller lösenord med någon över telefon
- Använd tvåfaktorsinloggning, så minskar ni drastiskt risken för kontokapning
- Ring upp personen på andra sidan för att bekräfta att identiteten verkligen stämmer
- Ställ frågor till dina leverantörer om var och hur din data sparas
Hur kommer det se ut framöver?
Talsyntes med AI blir allt mer tillgängligt varje dag. Lagstiftare försöker skapa ramverk och regleringar för ny AI teknik. Bland annat jobbar EU med att ta fram en lagstiftning kallad “Artificial Intelligence Act”. Tanken är att ställa högre krav på transparens och riskbedömning för AI modeller.Ett av problemen med regleringar är att det inte alltid är effektivt mot aktörer som använder ny teknik för bedrägeri och desinformation. Jag tror att vi kommer se nya verktyg och tekniker för att verifiera äkthet i röst och för att analysera ljud i konversationer.
Att utveckla mjukvara som automatiskt identifierar falskt ljud kommer att vara en kapplöpning mellan aktörer. Jag tror att vi automatiskt kommer behöva analysera röst och text från samtal och identifiera misstänksamma konversationer i syfte att ge stöd till organisationer och användare och fånga bedrägeriförsök tidigt.
Men i slutändan är det bästa försvaret mot bedrägerier en organisation som är vaksam, och här tror jag vi kommer se tekniska hjälpmedel som kan använda AI för att assistera.
Vilka utmaningar ser du med AI och ljudteknologi? Hör gärna av dig med tankar till [email protected]