Funktioniert das Kalorienschätzen durch ein Foto wirklich? Die Wissenschaft hinter Tabeku

Wir erhalten oft Fragen, die eine Mischung aus Staunen und logischer Skepsis sind. Viele Benutzer, die an Ernährungs-Apps aus der Vergangenheit gewöhnt sind, stellen eine sehr berechtigte Frage:

“Wie kann eine App wissen, wie viele Kalorien und Makros in meinem Essen stecken, nur indem sie ein Foto davon ansieht?”

Nachdem man jahrelang Lebensmittel manuell suchen und jeden Tag Gramm für Gramm abwiegen musste, ist es verständlich, dass eine visuelle Schätzfunktion wie Magie oder ein bloßer Werbegag klingt.

Das, was jedoch jedes Mal passiert, wenn Sie den Kamera-Auslöser drücken, hat nichts mit Magie zu tun. Es ist eine technologische Konvergenz von Computervision-Neuronetzwerken, die mit großen Sprachmodellen (LLMs) zusammenarbeiten.

Im Folgenden erklären wir genau, wie dieser Prozess vom Zeitpunkt der Aufnahme des Fotos bis zum Erhalt Ihrer Makronährstoffe funktioniert.

Die 3 Säulen, die Tabekus visuelle Revolution ermöglichen

Eine Kamera dazu zu bringen, Ernährung zu verstehen, ist einer der nützlichsten technologischen Meilensteine der letzten Zeit. Unser System kombiniert mehrere Schichten künstlicher Intelligenz, die in der Lage sind, komplexe Daten in Mikrosekunden zu analysieren:

1. Visuelle Erkennung und Analyse von Zutaten (Computervision)

Der erste Schritt besteht darin, die Bestandteile des Gerichts zu identifizieren. Das System begnügt sich jedoch nicht damit, einfach “Fleisch” oder “Brot” zu klassifizieren. Die neuronalen Netze werden mit Millionen von Bildern trainiert, um Texturen, Dichten und den Garzustand zu erkennen.

Beispielsweise kann es durch die Analyse der Krumenporen und der Backfarbe ein fluffiges, butterreiches Stück Brioche von dichtem Vollkornbrot unterscheiden. Darüber hinaus untersucht die KI Reflexionen und den visuellen Glanz von Lebensmitteln, um das Vorhandensein von hinzugefügten Speiseölen aufzudecken. Sie kann feststellen, ob eine Kartoffel naturbelassen gebacken, in der Pfanne geschwenkt oder frittiert wurde, und den geschätzten Kaloriengehalt drastisch anpassen.

2. 3D-Volumenschätzung und Perspektive

Ein Stück Lachs auf einem Foto zu lokalisieren ist nur die halbe Miete; sein Gewicht zu bestimmen, ist die wahre Herausforderung. Ein einfaches 2D-Bild reicht nicht aus, um die Tiefe von Lebensmitteln zu erkennen.

Durch die Berechnung der geometrischen Perspektive und mithilfe universeller visueller Referenzen (wie Standardgröße von Besteck, typischer Tellerdurchmesser oder Kamerawinkel) schließen Algorithmen auf das dreidimensionale Volumen der Portionen.

Das System versteht das Konzept der Nährstoffdichte: Es weiß, dass eine Schüssel voller Spinatblätter ein großes visuelles Volumen einnimmt, aber einen sehr geringen Kaloriengehalt aufweist, wohingegen nur ein großer Löffel Erdnussbutter, der nur einen Bruchteil dieses optischen Raums einnimmt, den zehnfachen Kalorienwert darstellt.

3. Menschlicher Kontext durch Große Sprachmodelle (LLM)

Computervisionsalgorithmen sind hervorragend darin, Pixel zu erkennen, aber ihnen fehlt der menschliche gesunde Menschenverstand. Aus diesem Grund werden die erkannten visuellen Daten durch ein großes Sprachmodell (LLM) geleitet, um einen tiefgreifenden situativen und kulturellen Kontext herzustellen.

Stellen Sie sich vor, Sie fotografieren eine typische Pappschachtel mit asiatischen Nudeln vom Lieferservice. Die visuelle KI erkennt “Nudeln, Fleisch, Gemüse”. Aber das LLM denkt einen Schritt weiter:

“Dies ist ein typischer Behälter aus einem kommerziellen Asia-Fast-Food-Restaurant. Die Nudeln haben ein dunkel glasiertes Aussehen, das auf ein großzügiges Dressing mit süßen Sojasaucen und Zucker hindeutet, zubereitet in einem Wok mit viel Pflanzenöl.”

Auf diese Weise fügt die App der strukturellen Schätzung automatisch jene “unsichtbaren” Zutaten (versteckte Fette, Süßungsmittel, Saucenreduktionen) hinzu, die den Großteil der Kalorien aus kommerziellen Quellen verbergen – und die die Hauptursache für ein Plateau beim Fettabbau sind.

Der entscheidende Faktor: Kontinuierliches iteratives Lernen

Was Tabeku im Vergleich zu einer statischen Datenbank wirklich leistungsstark macht, ist seine Fähigkeit zum iterativen Lernen.

Wenn die KI gelegentlich Ihr Kartoffelpüree als Hummus interpretiert (ein möglicher Fehler angesichts der visuellen Ähnlichkeit), können Sie eingreifen und die App korrigieren, indem Sie sagen “Nein, das ist Kartoffelpüree”.

Das Modell integriert diese Korrektur in Echtzeit und interagiert konversationell mit Ihnen. Es aktualisiert die Makros des aktuellen Eintrags und nutzt diese Feedback-Datenpunkte, um seine globale Genauigkeit im Laufe der Zeit zu optimieren.

Das ultimative Ziel: Reibungslose Konstanz

Kein visueller Algorithmus wird zu 100 % perfekt sein, genauso wie kommerzielle Nährwertkennzeichnungen gesetzlich erlaubte Fehlertoleranzen von bis zu 20 % haben. Mathematische Perfektion von einem Teller Essen zu verlangen, ist ein biologisch verfehlter Ansatz.

Das wahre Ziel der KI von Tabeku besteht darin, die logistischen Hürden des täglichen Trackings auf null zu reduzieren. Indem der langweilige, langsame und bürokratische Prozess des Kalorienzählens oder des Barcode-Scannens eliminiert wird, vermeiden Sie mentale Erschöpfung. Und wenn der Vorgang einfach ist und Ihr soziales Leben nicht stört, vervielfachen sich die Chancen exponentiell, dass Sie lebenslang effektive Ernährungsgewohnheiten beibehalten.