News Google Lyra: Effizienter Sprachcodec ist jetzt Open Source

SVΞN · 8. April 2021

Google hat seinen extrem effizienten Sprachcodec „Lyra“, mit dessen Hilfe sich Sprache mit einer Datenrate von gerade einmal 3 kbit/s kodieren lässt, offengelegt und für jedermann als Open Source freigegeben. Der speziell für ARM64-Plattformen optimierte Codec setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen.

Zur News: Google Lyra: Effizienter Sprachcodec ist jetzt Open Source

Selber · 8. April 2021

Es hört sich schon ziemlich nach Roboter an, aber alles besser als die Verbindung komplett zu verlieren.

jusaca · 8. April 2021

Der Quellcode ist mit Ausnahme eines kleinen Teils für mathematische Funktionen jetzt auf der Entwicklerplattform GitHub verfügbar.

Um was für mathemtatische Funktionen geht es hier? Ist die standardmäßig über CMSIS verfügbare arm_math gemeint? Oder kommt man an diese Funktionen aktuell gar nicht dran?

ErichH. · 8. April 2021

Das Schema deutet wohl auf den Einsatz eines Vector Quantized Variational Autoencoders hin! Sehr schön zu sehen, dass moderne Algorithmen dieser Art in Anwendungen genutzt werden!

Außerdem: "...setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen." Das ist ein bisschen wie nasses Wasser, hm? Na ja, vermutlich kommt die Phrase aus dem Marketing.

ET-Fan · 8. April 2021

Immer wenn es so eine News gibt bin ich ein wenig stolz und gleichzeitig betrübt, dass es wohl auf "Schwiizerdütsch" nicht funktionieren wird. Hat wohl seinen Preis keine Sprache, sondern nur ein Dialekt zu sein.

moonwalker99 · 8. April 2021

Weniger Bitrate fürs Audio? Ich dachte, das Video wäre das Problem. Somit hätte man wenig gewonnen.

ErichH. · 8. April 2021

@ET-Fan Das funktioniert mit allen Sprachen. Sie haben "einfach nur" die Spektogramme (=Frequenzverläufe) von vielen verschiedenen Sprachen und Sprechern berücksichtigt, um eine große Bandbreite an Lauten und Sprachmelodien zu erfassen.
Grundsätzlich geht's darum das Audiosignal so zu komprimieren, dass die fürs Sprachverständnis unwichtigen Bestandteile wegfallen und nur die wichtigen erhalten bleiben. Dein "Schwiizerdütsch" wird hoffentlich genug Ähnlichkeiten mit anderen erfassten Sprachen haben, um genauso "gut" komprimiert und wieder dekomprimiert werden zu können

.

Ergänzung (8. April 2021)

Na ja, wenn das Video stehenbleibt, ist es doch schön, wenn wenigstens der Ton weiter verständlich übertragen wird. Und das ist einfacher, wenn er wenig Bandbreite braucht.

S.Kara · 8. April 2021

3 KBit/s sind schon verdammt wenig. Das wären 1,3 MB pro Stunde.

Ohne bzw. nach Aufbrauchen meines Tarifs falle ich auf 32 KBit/s (bzw 4 KB/s). Da ist Telefonie in WhatsApp schon teilweise grenzwertig, owohl ich die 10-fache Bandbreite habe.

Raketenjoint · 8. April 2021

Kleiner Typo

Auch eine erste App, welche die Effizient von Googles „Lyra“ in Verbindung mit dem Toolkit Android NDK demonstriert, ist ebenfalls bereits verfügbar.

Yuuri · 8. April 2021

LPCNet gibts auch.

ET-Fan · 8. April 2021

@ErichH. Stimmt, da habe ich wohl zu viel in die News reininterpretiert. Habe irgendwie angenommen, da geht es um Spracherkennung, als ich das mit der Anlernung von 70 Sprachen gelesen habe. Aber ist ja "nur" ein Komprimierungsverfahren.

ErichH. · 8. April 2021

@Yuuri Sehr interessant, gleich mal gelesen.
LPCNet hat noch eine temporale Komponente mit drin und komprimiert sozusagen inhaltverlaufssensitiv. Ohne dass ich jetzt das Paper zur Google-Implementation gelesen hätte, würde ich denen unterstellen, dass sie ohne temporale Komponente arbeiten, d.h. einfach stur Frequenzpaket für Frequenzpaket komprimieren.

Gabber · 8. April 2021

Schön das es OS ist, aber was ist daran besser als die bisherigen Varianten wie z.B:

Codec 2 is a low-bitrate speech audio codec (speech coding) that is patent free and open source.[1] Codec 2 compresses speech using sinusoidal coding, a method specialized for human speech. Bit rates of 3200 to 450 bit/s have been successfully created.

?

###Zaunpfahl### · 8. April 2021

Hör zum ersten mal davon... also böse gesagt ist es eigentlich nur billige positive Werbung für Google denn es gibt schon gleichwertige Lösungen.

Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...

Nicht das Google pauschal schlecht ist. Da arbeiten auch nur Menschen aber mittlerweile gehts bei Google nur noch ums Geld, sei es auch nur indirekt. Und wenn es nur ums Geld geht kann man nicht im guten handeln das schließt sich aus so funktioniert unser Wirtschaftssystem.

onetwoxx · 8. April 2021

Die bessere Audioqualität ist zwar toll, aber das Decoding zieht auch mehr am Akku, ein Grund warum ich beim Videocall Google Duo umgehe und lieber Skype nutze

ErichH. · 8. April 2021

Ist halt ein Tradeoff - Rechenleistung gegen Bandbreite. Ist schlicht situationsabhängig, was von beiden gerade knapper ist und daher geschont werden muss.

chartmix · 8. April 2021

###Zaunpfahl### schrieb:
Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...

Welche zusätzliche Abhängigkeit liegt denn hier vor?
Jeder Anbieter oder sonstiger Interessierter kann den Codec nutzen.

###Zaunpfahl### · 8. April 2021

@chartmix Vielleicht ist Abhängigkeit auch nicht das richtige Wort.

Jedenfalls brauchst du zum bauen https://en.wikipedia.org/wiki/Bazel_(software)

Aber das war doch schon immer die Strategie von Google, öffne soviel wie nötig und mache soviel wie möglich "gratis". Ansonsten wären wir heute nicht da wo wir sind. Überall Connections zu Google, Javascript Bibliotheken, Analysetools, Fonts, Betriebsysteme, Browser... bis der Anteil so groß ist das es schwierig ist wieder rauszukommen und man "eingesperrt" ist.

Woookie · 8. April 2021

Die Qualität der Referenzschnippsel ist echt erstaunlich, verglichen mit anderen Codecs die bei 3-6kBit/s kaum noch nutzbar sind. LPC10 geht bei 2,4kBit/s noch, aber das ist dann schon sehr roboterhaft.
Nur mal als Vergleich: GSM braucht 13kBit/s in Fullrate als Low-Bandwith

Necoro · 8. April 2021

Ich kannte weder Lyra noch LPCNet.
Habe mir von beiden Beispiele angehört und bin beeindruckt.
Leider habe ich noch keinen direkten Vergleich gefunden. Ideal wäre es einmal mit eine sauberen Aufnahmesituation und einmal mit Störgeräuschen.
Hat da schon jemand was gefunden?

News Google Lyra: Effizienter Sprachcodec ist jetzt Open Source

Redakteur a.D.

Lt. Commander

Commander

Lt. Junior Grade

Cadet 4th Year

Lt. Commander

Lt. Junior Grade

Captain

Cadet 4th Year

Fleet Admiral

Cadet 4th Year

Lt. Junior Grade

Ensign

Lt. Commander

Admiral

Lt. Junior Grade

Commander

Lt. Commander

Cadet 4th Year

Ensign

Passend zum Thema