News Google Lyra: Effizienter Sprachcodec ist jetzt Open Source

SVΞN

Redakteur a.D.
Registriert
Juni 2007
Beiträge
22.748
Google hat seinen extrem effizienten Sprachcodec „Lyra“, mit dessen Hilfe sich Sprache mit einer Datenrate von gerade einmal 3 kbit/s kodieren lässt, offengelegt und für jedermann als Open Source freigegeben. Der speziell für ARM64-Plattformen optimierte Codec setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen.

Zur News: Google Lyra: Effizienter Sprachcodec ist jetzt Open Source
 
  • Gefällt mir
Reaktionen: aid0nex, konkretor, Conqi und 4 andere
Es hört sich schon ziemlich nach Roboter an, aber alles besser als die Verbindung komplett zu verlieren.
 
  • Gefällt mir
Reaktionen: M1812M, aid0nex, nco2k und eine weitere Person
Der Quellcode ist mit Ausnahme eines kleinen Teils für mathematische Funktionen jetzt auf der Entwicklerplattform GitHub verfügbar.
Um was für mathemtatische Funktionen geht es hier? Ist die standardmäßig über CMSIS verfügbare arm_math gemeint? Oder kommt man an diese Funktionen aktuell gar nicht dran?
 
  • Gefällt mir
Reaktionen: dermoritz
Das Schema deutet wohl auf den Einsatz eines Vector Quantized Variational Autoencoders hin! Sehr schön zu sehen, dass moderne Algorithmen dieser Art in Anwendungen genutzt werden!

Außerdem: "...setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen." Das ist ein bisschen wie nasses Wasser, hm? Na ja, vermutlich kommt die Phrase aus dem Marketing.
 
  • Gefällt mir
Reaktionen: aid0nex, netzgestaltung und N3utr4l1s4t0r
Immer wenn es so eine News gibt bin ich ein wenig stolz und gleichzeitig betrübt, dass es wohl auf "Schwiizerdütsch" nicht funktionieren wird. Hat wohl seinen Preis keine Sprache, sondern nur ein Dialekt zu sein.
 
  • Gefällt mir
Reaktionen: aid0nex, Syrato, flying_ass und 3 andere
Weniger Bitrate fürs Audio? Ich dachte, das Video wäre das Problem. Somit hätte man wenig gewonnen.
 
  • Gefällt mir
Reaktionen: Necoro, DoS007 und truetone
@ET-Fan Das funktioniert mit allen Sprachen. Sie haben "einfach nur" die Spektogramme (=Frequenzverläufe) von vielen verschiedenen Sprachen und Sprechern berücksichtigt, um eine große Bandbreite an Lauten und Sprachmelodien zu erfassen.
Grundsätzlich geht's darum das Audiosignal so zu komprimieren, dass die fürs Sprachverständnis unwichtigen Bestandteile wegfallen und nur die wichtigen erhalten bleiben. Dein "Schwiizerdütsch" wird hoffentlich genug Ähnlichkeiten mit anderen erfassten Sprachen haben, um genauso "gut" komprimiert und wieder dekomprimiert werden zu können ;).
Ergänzung ()

Na ja, wenn das Video stehenbleibt, ist es doch schön, wenn wenigstens der Ton weiter verständlich übertragen wird. Und das ist einfacher, wenn er wenig Bandbreite braucht.
 
  • Gefällt mir
Reaktionen: Snudl, M1812M, floTTes und 2 andere
3 KBit/s sind schon verdammt wenig. Das wären 1,3 MB pro Stunde.

Ohne bzw. nach Aufbrauchen meines Tarifs falle ich auf 32 KBit/s (bzw 4 KB/s). Da ist Telefonie in WhatsApp schon teilweise grenzwertig, owohl ich die 10-fache Bandbreite habe.
 
  • Gefällt mir
Reaktionen: Mertsch, DoS007 und c[A]rm[A]
@ErichH. Stimmt, da habe ich wohl zu viel in die News reininterpretiert. Habe irgendwie angenommen, da geht es um Spracherkennung, als ich das mit der Anlernung von 70 Sprachen gelesen habe. Aber ist ja "nur" ein Komprimierungsverfahren.
 
@Yuuri Sehr interessant, gleich mal gelesen.
LPCNet hat noch eine temporale Komponente mit drin und komprimiert sozusagen inhaltverlaufssensitiv. Ohne dass ich jetzt das Paper zur Google-Implementation gelesen hätte, würde ich denen unterstellen, dass sie ohne temporale Komponente arbeiten, d.h. einfach stur Frequenzpaket für Frequenzpaket komprimieren.
 
  • Gefällt mir
Reaktionen: Mertsch
  • Gefällt mir
Reaktionen: stevefrogs, cbtestarossa und ###Zaunpfahl###
Hör zum ersten mal davon... also böse gesagt ist es eigentlich nur billige positive Werbung für Google denn es gibt schon gleichwertige Lösungen.

Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...

Nicht das Google pauschal schlecht ist. Da arbeiten auch nur Menschen aber mittlerweile gehts bei Google nur noch ums Geld, sei es auch nur indirekt. Und wenn es nur ums Geld geht kann man nicht im guten handeln das schließt sich aus so funktioniert unser Wirtschaftssystem.
 
  • Gefällt mir
Reaktionen: M1812M
Die bessere Audioqualität ist zwar toll, aber das Decoding zieht auch mehr am Akku, ein Grund warum ich beim Videocall Google Duo umgehe und lieber Skype nutze
 
Ist halt ein Tradeoff - Rechenleistung gegen Bandbreite. Ist schlicht situationsabhängig, was von beiden gerade knapper ist und daher geschont werden muss.
 
  • Gefällt mir
Reaktionen: floTTes, stevefrogs, onetwoxx und eine weitere Person
###Zaunpfahl### schrieb:
Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...
Welche zusätzliche Abhängigkeit liegt denn hier vor?
Jeder Anbieter oder sonstiger Interessierter kann den Codec nutzen.
 
@chartmix Vielleicht ist Abhängigkeit auch nicht das richtige Wort.

Jedenfalls brauchst du zum bauen https://en.wikipedia.org/wiki/Bazel_(software)

Aber das war doch schon immer die Strategie von Google, öffne soviel wie nötig und mache soviel wie möglich "gratis". Ansonsten wären wir heute nicht da wo wir sind. Überall Connections zu Google, Javascript Bibliotheken, Analysetools, Fonts, Betriebsysteme, Browser... bis der Anteil so groß ist das es schwierig ist wieder rauszukommen und man "eingesperrt" ist.
 
  • Gefällt mir
Reaktionen: DoS007 und Rohberrick
Die Qualität der Referenzschnippsel ist echt erstaunlich, verglichen mit anderen Codecs die bei 3-6kBit/s kaum noch nutzbar sind. LPC10 geht bei 2,4kBit/s noch, aber das ist dann schon sehr roboterhaft.
Nur mal als Vergleich: GSM braucht 13kBit/s in Fullrate als Low-Bandwith :D
 
  • Gefällt mir
Reaktionen: WinnieW2 und Zarlak
Ich kannte weder Lyra noch LPCNet.
Habe mir von beiden Beispiele angehört und bin beeindruckt.
Leider habe ich noch keinen direkten Vergleich gefunden. Ideal wäre es einmal mit eine sauberen Aufnahmesituation und einmal mit Störgeräuschen.
Hat da schon jemand was gefunden?
 
Zurück
Oben