Verfahrensgang
BPatG (Urteil vom 05.05.2022; Aktenzeichen 2 Ni 68/20 (EP)) |
Tenor
Die Berufung gegen das Urteil des 2. Senats (Nichtigkeitssenats) des Bundespatentgerichts vom 5. Mai 2022 wird auf Kosten der Beklagten zurückgewiesen.
Von Rechts wegen
Tatbestand
Rz. 1
Die Beklagte ist Inhaberin des mit Wirkung für die Bundesrepublik Deutschland erteilten europäischen Patents 1 290 889 (Streitpatents), das am 7. Mai 2001 unter Inanspruchnahme zweier US-amerikanischer Prioritäten vom 8. Juni 2000 und 16. Februar 2001 angemeldet wurde und Spracherkennung für Kabelfernsehen oder Videoverteildienste betrifft.
Rz. 2
Patentanspruch 1, auf den elf weitere Ansprüche zurückbezogen sind, lautet in der Verfahrenssprache:
A method of using a back channel containing a multiplicity of identified speech channels from a multiplicity of user sites (1100) presented to a speech recognition system (3200) at a wireline node (1300) of a network supporting at least one of cable television delivery and video delivery, comprising the steps of:
receiving said back channel to create a received back channel,
partitioning said received back channel into a multiplicity of received identified speech channels;
processing each of said multiplicity of said received identified speech channels with said speech recognition system to create corresponding recognized speech content for each received identified speech channel;
responding to said recognized speech content to create a recognized speech content response that is unique for each of said received identified speech channels; and
individually controlling the delivery of entertainment and information services to each user site (1100) in accordance with said recognized speech.
Rz. 3
Patentanspruch 13, auf den achtzehn weitere Ansprüche zurückbezogen sind, schützt ein System zur Ausführung eines solchen Verfahrens.
Rz. 4
Die Klägerin, die wegen Verletzung des Streitpatents gerichtlich in Anspruch genommen wird, hat das Schutzrecht im Umfang der Ansprüche 1, 2,13 und 14 angegriffen und geltend gemacht, die Erfindung sei nicht so offenbart, dass ein Fachmann sie ausführen könne, und der angegriffene Gegenstand gehe über den Inhalt der ursprünglich eingereichten Unterlagen hinaus und sei nicht patentfähig.
Rz. 5
Die Beklagte hat das Streitpatent in der erteilten Fassung und hilfsweise in acht geänderten Fassungen verteidigt.
Rz. 6
Das Patentgericht hat das Patent im beantragten Umfang für nichtig erklärt. Dagegen richtet sich die Berufung der Beklagten, die ihr erstinstanzliches Begehren mit Ausnahme der Hilfsanträge 2 und 3 weiterverfolgt. Die Klägerin tritt dem Rechtsmittel entgegen.
Entscheidungsgründe
Rz. 7
Die zulässige Berufung hat in der Sache keinen Erfolg.
Rz. 8
I. Das Streitpatent betrifft Spracherkennung für Kabelfernsehen oder Videoverteildienste.
Rz. 9
1. Nach den Ausführungen in der Streitpatentschrift waren im Stand der Technik sprachgesteuerte Funktionen auf einige wenige Anwendungen beschränkt. Diese Systeme böten typischerweise nur eine begrenzte Zahl von Befehlen, die Erkennungs-Effizienz sei nur mittelmäßig und oft sei ein Sprachtraining erforderlich (Abs. 2).
Rz. 10
Eine andere Technologie, die die Erkennung natürlicher Sprache ermögliche, erfordere Hunderte von Megabytes an Hauptspeicher. Sie werde von Versorgungsunternehmen und der New Yorker Börse zur Rechnungserstellung eingesetzt (Abs. 4).
Rz. 11
Diese Innovationen stellten keine Lösung bereit, um in Kabelfernsehnetzen und Videoverteilsystemen eine Benutzer-Identifizierung, Echtzeit-Auktionen oder Vertragsabschlüsse zu unterstützen (Abs. 31).
Rz. 12
2. Das Streitpatent betrifft vor diesem Hintergrund das technische Problem, Spracherkennung in Kabelfernsehnetzen oder Videoverteildiensten bereitzustellen.
Rz. 13
3. Zur Lösung schlägt das Streitpatent in Patentanspruch 1 ein Verfahren vor, dessen Merkmale sich wie folgt gliedern lassen:
Rz. 14
1.1 |
A method of using a back channel |
Verfahren zur Verwendung eines Rückkanals, |
1.1.1 |
containing a multiplicity of identified speech channels from a multiplicity of user sites (1100) |
der eine Vielzahl von identifizierten Sprachkanälen von einer Vielzahl von Teilnehmerstandorten (1100) enthält, |
1.1.2 |
presented to a speech recognition system (3200) at a wireline node (1300) of a network supporting at least one of cable television delivery and video delivery, |
die eingegeben wird in ein Spracherkennungssystem (3200) an einem Leitungs-Knoten (1300) eines Netzwerks, das mindestens Kabelfernsehen oder Video-Verteilung unterstützt, |
1.2 |
comprising the steps of: |
das folgende Schritte umfasst: |
1.2.1 |
receiving said back channel to create a received back channel, |
Empfang des Rückkanals zur Erzeugung eines empfangenen Rückkanals; |
1.2.2 |
partitioning said received back channel into a multiplicity of received identified speech channels; |
Aufteilung des empfangenen Rückkanals in eine Vielzahl empfangener identifizierter Sprachkanäle, |
1.2.3 |
processing each of said multiplicity of said received identified speech channels with said speech recognition system to create corresponding recognized speech content for each received identified speech channel; |
Verarbeitung jedes aus der Vielzahl empfangener identifizierter Sprachkanäle mit dem Spracherkennungssystem, um für jeden empfangenen identifizierten Sprachkanal einen entsprechenden erkannten Sprachinhalt zu erzeugen; |
1.2.4 |
responding to said recognized speech content to create a recognized speech content response that is unique for each of said received identified speech channels; and |
Reagieren auf den erkannten Sprachinhalt, um eine Reaktion auf den erkannten Sprachinhalt zu erzeugen, die für jeden der empfangenen identifizierten Sprachkanäle individuell ist; und |
1.2.5 |
individually controlling the delivery of entertainment and information services to each user site (1100) in accordance with said recognized speech. |
individuelle Steuerung der Lieferung von Unterhaltungs- und Informationsdiensten zu jedem Teilnehmerstandort (1100) in Übereinstimmung mit der erkannten Sprache. |
Rz. 15
4. Patentanspruch 13 schützt ein System zur Ausführung eines solchen Verfahrens und unterliegt derselben Beurteilung wie Patentanspruch 1.
Rz. 16
5. Einige Merkmale bedürfen der näheren Erläuterung.
Rz. 17
a) Ein Rückkanal im Sinne von Merkmal 1.1 ist ein Übertragungsweg, der die Übermittlung von Informationen von einem Nutzer an eine Sendestation ermöglicht. In Merkmal 1.2.1 bezeichnet dieser Begriff Informationen, die auf einem solchen Kanal übertragen werden.
Rz. 18
b) Ein Leitungsknoten im Sinne von Merkmal 1.1.2 ist nach der Definition in der Beschreibung des Streitpatents ein Netzwerkknoten, der Video- oder Kabelfernseh-Dienste für mehrere Teilnehmer bereitstellt (Abs. 5 Z. 49-53).
Rz. 19
c) Der Begriff "identifizierter Sprachkanal" (identified speech channel) wird in den Merkmalen 1.1.1, 1.2.2, 1.2.3 und 1.2.4 sowohl für einen Übertragungsweg verwendet, auf dem Sprachinformationen übermittelt werden, als auch für Sprachinformationen, die auf einem solchen Kanal übertragen werden.
Rz. 20
Die Identifizierung eines Sprachkanals eröffnet die Möglichkeit, den Kanal einem Nutzerstandort oder einem einzelnen Nutzer zuzuordnen. So können zum Beispiel unterschiedliche Standorte anhand ihrer Adresse (Abs. 97) und unterschiedliche Nutzer anhand von Charakteristika ihrer Stimme (Abs. 108 f.) identifiziert werden.
Rz. 21
Patentanspruch 1 schreibt keine dieser Möglichkeiten zwingend vor. Folglich genügt es zur Identifizierung eines Sprachkanals, wenn dieser von anderen Kanälen - einschließlich anderer Sprachkanäle - unterschieden werden kann.
Rz. 22
d) Nachdem der Rückkanal gemäß Merkmal 1.2.2 in eine Vielzahl identifizierter Sprachkanäle aufgeteilt worden ist, wird jeder Sprachkanal gemäß Merkmal 1.2.3 der Spracherkennung zugeführt, um Sprachinhalte zu erkennen.
Rz. 23
aa) Wie das Patentgericht zutreffend ausgeführt hat, müssen hierzu die übertragenen Sprachsignale in Wörter oder sonstige Buchstabenfolgen umgewandelt werden.
Rz. 24
bb) Aus den Merkmalen 1.2.4 und 1.2.5, wonach in Reaktion auf einen erkannten Sprachinhalt bzw. in Übereinstimmung mit der erkannten Sprache die Lieferung von Unterhaltungs- und Informationsdiensten individuell gesteuert werden muss, ergibt sich ferner, dass der erkannte Sprachinhalt in irgendeiner Weise interpretiert werden muss, damit die erforderliche Reaktion erfolgen kann.
Rz. 25
Nach der Beschreibung kann die Verarbeitung erkannter Sprache in der Weise erfolgen, dass Schlüsselwörter von gesprochenen Kommandos erkannt und angezeigt werden. Dies kann im Navigations-Modus, im Such-Kontext oder in anderen Zusammenhängen und Betriebsarten angewendet werden (Abs. 37).
Rz. 26
Das System kann auf ein Kommando aber auch dadurch reagieren, dass es die gesprochene Anweisung visuell darstellt. Damit kann angezeigt werden, dass Schlüsselwörter erkannt worden sind. Diese Darstellung kann in Form von Text oder Symbolen erfolgen (Abs. 38).
Rz. 27
cc) Entgegen der Auffassung der Berufung ergibt sich aus Patentanspruch 1 vor diesem Hintergrund nicht, dass zwingend die grammatikalische Bedeutung von erkannten Zeichenfolgen, Wörtern oder Sätzen erkannt werden muss.
Rz. 28
Die von der Berufung insoweit herangezogenen Ausführungen in der Beschreibung, wonach der Sprachprozessor über eine Grammatik-Definition verfügen muss und eine solche Struktur oft die Wörter, die am wahrscheinlichsten gesprochen werden, die Reihenfolge, in der die Wörter erscheinen können, und die Bedeutung verschiedener Sequenzen von Wörtern enthalte (Abs. 98), führen schon deshalb nicht zu einer abweichenden Beurteilung, weil die genannten Funktionen nur als häufig vorhanden, nicht aber als notwendig bezeichnet werden. Unabhängig davon schreibt Patentanspruch 1 weder den Einsatz einer Grammatik vor noch bestimmte Funktionen, die diese aufweisen muss.
Rz. 29
Aus den bereits erwähnten Ausführungen zu möglichen Reaktionen auf erkannte Sprache (Abs. 37 f.) ergeben sich keine weitergehenden Schlussfolgerungen. Danach genügt es vielmehr, wenn ein erkannter Text angezeigt oder als Suchbegriff verwendet wird. Hierfür ist es nicht zwingend erforderlich, die Bedeutung des Texts zu erfassen, ihn einem bestimmten Kontext zuzuordnen oder ihn mit vordefinierten Schlüsselwörtern zu vergleichen.
Rz. 30
Die Zuordnung zu einem Kontext, etwa dergestalt, dass von verschiedenen möglichen Bedeutungen eines Worts je nach der Eingabesituation nur einzelne Bedeutungen herangezogen werden, ist weder im Patentanspruch noch in der Beschreibung vorgesehen. Der Abgleich mit Schlüsselwörtern ist in der Beschreibung (Abs. 38) nur als ein mögliches Beispiel erwähnt und in Patentanspruch 1 ebenfalls nicht zwingend vorgesehen.
Rz. 31
e) Zu den Unterhaltungs- oder Informationsdiensten, deren Lieferung gemäß Merkmal 1.2.5 in Übereinstimmung mit der erkannten Sprache - also mit dem erkannten Sprachinhalt im Sinne von Merkmal 1.2.4 - individuell gesteuert wird, gehören Video on Demand, Pay per View, Online-Shopping und das Internet, aber auch die Steuerung von Kanälen (Abs. 35).
Rz. 32
Für eine individuelle Steuerung im Sinne von Merkmal 1.2.5 genügt es, dass die Lieferung jeweils entsprechend dem den einzelnen Nutzern zuzuordnenden erkannten Sprachinhalt erfolgt. Dies schließt nicht aus, dass derselbe Gegenstand an mehrere Nutzer geliefert wird, wenn diese jeweils inhaltsgleiche Befehle übermittelt haben.
Rz. 33
Entgegen der Auffassung der Berufung ist die Art und Weise der Lieferung in Merkmal 1.2.5 nicht festgelegt. Insbesondere ist weder dem Patentanspruch noch der Beschreibung zu entnehmen, dass die Lieferung mittels einer Punkt-zu-Punkt-Verbindung erfolgen muss. Erforderlich ist lediglich eine Lieferung an denjenigen Nutzer, der eine entsprechende Anforderung übermittelt hat. Dies kann auch dadurch geschehen, dass die Lieferung auf einem Broadcast-Kanal erfolgt und dem jeweiligen Adressaten durch einen Schlüssel oder ähnliche Mittel der individuelle Zugang ermöglicht wird.
Rz. 34
II. Das Patentgericht hat seine Entscheidung, soweit für das Berufungsverfahren von Interesse, im Wesentlichen wie folgt begründet:
Rz. 35
Der Gegenstand des erteilten Patentanspruchs 1 beruhe gegenüber der internationalen Patentanmeldung 00/24198 (NK11) nicht auf erfinderischer Tätigkeit.
Rz. 36
NK11 zeige ein Verfahren zur Erkennung von Sprachdaten, die über den Rückkanal eines Kabelfernsehnetzes übermittelt würden. Hierbei sei selbstverständlich, dass es mehrere Sprachkanäle gebe und diese vor der Übermittlung festgelegt und damit im Sinne von Merkmal 1.1 identifiziert werden müssten. Ebenfalls selbstverständlich sei, dass die Daten vor der Konvertierung in Text netzwerkseitig empfangen würden. Der in Figur 1 von NK11 dargestellte Demultiplexer (18) diene aus Sicht des Fachmanns, eines Elektroingenieurs der Fachrichtung Nachrichtentechnik mit mehrjähriger Erfahrung in der Konzeption und Entwicklung von Kabelfernseh- und Videoverteilnetzwerken einschließlich der zugehörigen Benutzerschnittstellen und Kenntnis der jeweils gültigen Standards für den Betrieb solcher Netzwerke, der Aufteilung der Sprachdatenpakete verschiedener Teilnehmer, die im Rahmen eines solchen zeitgesteuerten Multiplex-Verfahrens (Time Division Multiple Access, TDMA) an den Server (13) übermittelt worden seien. Das Zurücksenden der erkannten Texte an die Set-Top-Boxen und das Bereitstellen dieser Texte zur Verwendung in einer bestimmten interaktiven Anwendung sei als eine individuelle Steuerung der Lieferung eines Informationsdienstes im Sinne von Merkmal 1.2.5 anzusehen. NK11 führe im Kontext mit der Erkennung von Handschrift mehrere solche interaktiven Anwendungen an, nämlich einen E-Mail-, einen Fax- und einen elektronischen Einkaufsdienst, und sehe Spracherkennung durchweg als Alternative zur Handschriftenerkennung vor.
Rz. 37
Nicht unmittelbar offenbart sei eine individuelle Steuerung in Bezug auf Unterhaltungsdienste. Dieses Teilmerkmal sei aber nahegelegt gewesen. So könne das in NK11 beschriebene System in etlichen interaktiven Anwendungen verwendet werden, die auf einer Set-Top-Box abliefen. Das bedeute, dass diese Anwendungen die von dem Server bereitgestellten Textdaten verwendeten. Die mittels interaktiver Anwendung zu erwerbenden Produkte könnten auch Datenfolgen - z.B. Videos oder elektronische Zeitschriftenartikel - sein. Ein jeweiliger Teilnehmer bestimme durch seine mündlichen Äußerungen die Art und den Bedeutungsinhalt der gekauften Datenfolgen.
Rz. 38
Hinsichtlich Patentanspruch 2 finde der Fachmann in einer Veröffentlichung zu einem Rückkanal im Kabelfernsehsystem (Digital Video Broadcasting (DVB) - Interaction channel for Cable TV distribution systems (CATV), European Telecommunications Standards Institute, Januar 1998, NK16) den Hinweis, dass die MAC- und NSAP-Adressen der Set-Top-Boxen - also bestimmte Kennzeichnungen - herangezogen würden, um die von verschiedenen Teilnehmern auf dem Rückkanal übertragenen Informationen netzwerkseitig zu unterscheiden. Im Übrigen müsse auch in der Sendestation eine Information darüber vorhanden sein, an welchen Teilnehmer die Ergebnisse eines Spracherkennungsvorgangs zu übermitteln seien. Dazu sei es zweckmäßig, entsprechende Identifikationsinformationen des zugehörigen Teilnehmers bzw. der zugehörigen Set-Top-Box über den Rück- bzw. Sprachkanal zu senden.
Rz. 39
NK11 sei ferner zu entnehmen, dass der Teilnehmer im Rahmen des elektronischen Einkaufsdienstes eine Lieferadresse angebe. Stimme die Adresse mit der Adresse des Teilnehmers und dem Standort der Set-Top-Box überein, bezeichne sie einen Teilnehmerstandort.
Rz. 40
Die mit den Hilfsanträgen verteidigten Gegenstände seien durch NK11, NK16, eine Veröffentlichung von IBM (Speech Recognition Methods for Controlling Cable Television, IBM Technical Bulletin, Vol. 38 Nr. 8 S. 285-287, August 1995, NK12) und das US-Patent 5 774 859 (NK9) nahegelegt.
Rz. 41
III. Diese Beurteilung hält der Überprüfung im Berufungsrechtszug stand.
Rz. 42
1. Zu Recht hat das Patentgericht entschieden, dass NK11 den angegriffenen Gegenstand mit Ausnahme eines Teils von Merkmal 1.2.5 offenbart.
Rz. 43
a) NK11 befasst sich mit der Verwendung eines Servers zur Umwandlung von vom Benutzer bereitgestellten Informationen in ein Datenformat, das von einer interaktiven Fernsehanwendung verwendet werden kann.
Rz. 44
aa) In der Beschreibung von NK11 wird ausgeführt, interaktive Fernsehsysteme könnten verwendet werden, um Benutzern eine Vielzahl von Diensten bereitzustellen, etwa Text- und Grafikinformationen, um die Interaktion zu vereinfachen, oder Audio- und Videoströme, die mit normalen Fernsehprogrammen verknüpft seien. Solche Systeme könnten für Marketing- und Weiterbildungszwecke eingesetzt werden. Zuschauer könnten beworbene Produkte oder Dienstleistungen bestellen, Informationen bezüglich bestimmter Programme anfordern oder elektronische Nachrichten (E-Mail) senden.
Rz. 45
In einem typischen interaktiven Fernsehsystem weise das Fernsehsignal neben dem Audio-Video-Bereich für das Fernsehprogramm einen interaktiven Bereich auf, der aus Anwendungscode oder Steuerinformationen bestehe. Der Anbieter kombiniere die beiden Bereiche in ein einzelnes Signal zur Übertragung an den Empfänger.
Rz. 46
Die interaktive Funktionalität werde durch eine mit dem Fernseher verbundene Set-Top-Box gesteuert. Diese empfange das übertragene Signal und trenne den interaktiven Bereich von dem Audio-Video-Bereich. Wenn der interaktive Bereich des Signals eine interaktive Anwendung aufweise, könne die Anwendung ausgeführt werden, während das Fernsehsignal auf den Fernseher übertragen werde. Die Set-Top-Box könne diese Informationen mit Grafiken oder Audioinformationen kombinieren, die durch die interaktive Anwendung ausgeführt würden (S. 1 Z. 26-32).
Rz. 47
Eine Benutzereingabe sei zum Beispiel bei einem fernsehbasierten Verkaufsservice erforderlich, bei dem eine Reihe von Produkten angezeigt würden und der Benutzer diese erwerben könne (S. 1 Z. 38-40). Die Eingabe von Textinformationen sei bei Messaging-Anwendungen erforderlich, weil der Benutzer die Nachricht und Informationen zum Empfänger eingeben müsse (S. 2 Z. 3-5).
Rz. 48
Eine Option zur Texteingabe sei die Verwendung einer Tastatur (S. 2 Z. 6). Alternativ könnten Spracheingaben mit Hilfe von Spracherkennungstechnologie gesampelt und mit einem zuvor gesampelten Sprachmuster verglichen werden, um die vom Benutzer gesprochenen Wörter zu bestimmen (S. 2 Z. 15-18). Diese Technologien erforderten ein hohes Maß an Computerressourcen. Die Anwendungen könnten sehr groß sein und benötigten viel Verarbeitungszeit, um den erforderlichen Musterabgleich durchzuführen. Diese Technologien könnten daher nicht in aktuellen Set-Top-Boxen implementiert werden, die einen sehr beschränkten Speicher und eine sehr beschränkte Verarbeitungskapazität hätten (S. 2 Z. 21-25).
Rz. 49
bb) Um dennoch Spracheingaben zu ermöglichen, schlägt NK11 vor, die vom Benutzer eingegebenen Informationen an einen Server zu übertragen, der sich an der Sendestation befinden könne, und die Informationen in Textdaten umwandle. In einer Ausführungsform übertrage der Server die Textdaten zurück an die Empfangsstation, wo sie durch eine Anwendung verwendet werden könnten, die in der Set-Top-Box ausgeführt werde. In anderen Ausführungsformen könnten die Textdaten am Server verwendet oder an einen Teil des Systems übertragen werden, der sich von der Set-Top-Box unterscheide (S. 2 Z. 26-36).
Rz. 50
Bei einer Ausführungsform könnten Informationen mit einem Grafiktablet eingegeben werden. Die dabei entstehende Bilddatei werde von der Set-Top-Box an die Sendestation übertragen und dort mit einem Server in Zeichen- oder Textdaten umgewandelt. Die Textdaten würden zurück an die Anwendung auf der Set-Top-Box übertragen, die die Daten verwende, wie wenn sie direkt von dem Benutzer eingegeben worden wären (S. 2 Z. 37 bis S. 3 Z. 6).
Rz. 51
Ein Ausführungsbeispiel ist in der nachfolgend wiedergegebenen Figur 1 schematisch dargestellt.
Rz. 52
Eine Rundsendestation (10) versendet ein interaktives Audio-Video-Signal über Kabel, Satellit oder terrestrischen Funk an eine Vielzahl von Empfangsstationen (20). Die Empfangsstation kann zudem Signale über eine Modemverbindung mit der Rundsendestation empfangen (S. 4 Z. 6-14). Die Rundsendestation (10) weist eine Fernsehprogrammquelle (11), eine interaktive Anwendungsquelle (12) und einen Server (13) zur Verarbeitung von Nicht-Textdaten auf. Die von diesen drei Quellen erzeugten Informationen werden in der Regel komprimiert und in Pakete zusammengefasst (S. 5 Z. 1-10). Die Pakete werden in eine Multiplexeinheit (17) eingespeist, die sie während der Übertragung einstreut. Die eingestreuten Pakete werden dann über die Antenne (19) per Satellit an die Empfangsstationen (20) ausgesendet (S. 5 Z. 20-25).
Rz. 53
Die Set-Top-Box (22) verarbeitet das Signal, um die Fernsehprogramme und die interaktiven Anwendungen zu rekonstruieren. Die rekonstruierten Anwendungen werden in der Set-Top-Box ausgeführt, während die rekonstruierten Fernsehprogramme an den Fernseher (23) weitergegeben werden (S. 5 Z. 26-33).
Rz. 54
Als mögliche Anwendung für ein solches System benennt NK11 einen E-Mail-Service für Abonnenten. Der Benutzer könne die E-Mail-Anwendung auswählen, die durch den Serviceanbieter bereitgestellt werde, und dann auf dem Grafiktablet eine Nachricht schreiben und die Adresse des Empfängers angeben (S. 9 Z. 23-28).
Rz. 55
Als weiteres Beispiel wird E-Commerce angeführt. Der Benutzer könne durch einen Online-Katalog blättern, Produkte auswählen und Artikelinformationen über Menüeinträge bereitstellen. Nicht-standardisierte Informationen wie die Lieferadresse müssten über das Grafiktablet eingegeben werden (S. 10 Z. 14-19).
Rz. 56
In einer anderen Ausführungsform könne der Benutzer diese Informationen über Sprache eingeben. Der Benutzer könne hierzu ein Mikrofon oder Telefongerät verwenden (S. 10 Z. 20-21). Die Sprachdaten würden an den Server übermittelt, der die Spracherkennungssoftware verwende, um die Sprachdaten in Textdaten umzuwandeln. Die Textdaten würden an die Set-Top-Box zurückgegeben, wo sie dem Benutzer angezeigt werden könnten. Der Benutzer könne den Text korrigieren oder bestätigen, dass der Text genau aus den Sprachdaten erzeugt worden sei (S. 10 Z. 25-27).
Rz. 57
b) Damit sind die Merkmale 1.1 und 1.2.1 offenbart.
Rz. 58
Eingegebene Sprachdaten werden auf einem Rückkanal übertragen.
Rz. 59
c) Entgegen der Auffassung der Beklagten ist auch Merkmal 1.1.1 offenbart.
Rz. 60
aa) In NK11 wird zwar nicht ausdrücklich erwähnt, dass Sprachdaten, die auf dem Rückkanal an die Sendestation übermittelt werden, von einer Vielzahl von Teilnehmern stammen können. Hinsichtlich des umgekehrten Übertragungsweges wird aber mehrfach ausgeführt, dass mehrere Empfänger (S. 4 Z. 9/10) bzw. eine Reihe von Zuschauern (S. 3 Z. 30; S. 5 Z. 2) vorhanden sind. Dass es mehrere Empfänger gibt, folgt überdies schon daraus, dass die interaktiven Informationen zusammen mit Fernsehsignalen übertragen werden.
Rz. 61
bb) NK11 offenbart auch eine Identifikation der Sprachkanäle im Sinne der Merkmale 1.1.1, 1.2.2 und 1.2.3.
Rz. 62
Dies ergibt sich aus den Ausführungen, wonach die vom Server aus den Bild- oder Sprachdaten erzeugten Texte von der Set-Top-Box wie eine lokale Eingabe verarbeitet werden können. Um dies zu ermöglichen, müssen die Texte und die zu ihrer Erzeugung verwendeten Daten einem bestimmten Empfangsgerät zugeordnet werden. Dass NK11 nicht beschreibt, wie dies im Einzelnen geschieht, ist unerheblich, weil Patentanspruch 1 insoweit keine Vorgaben enthält.
Rz. 63
d) Merkmal 1.1.2 ist ebenfalls unmittelbar und eindeutig offenbart.
Rz. 64
Der Server, der die Spracherkennung ausführt, befindet sich an der Rundsendestation (10). Diese ist bei dem in NK11 als eine Möglichkeit vorgesehenen Einsatz eines Kabelnetzwerks ein kabelgebundener Leitungsknoten.
Rz. 65
e) Entgegen der Auffassung der Berufung nimmt NK11 auch das Merkmal 1.2.2 vorweg.
Rz. 66
Dabei kann dahingestellt bleiben, welchem Zweck der in Figur 1 dargestellte Demultiplexer (18) dient, zu dem sich die Beschreibung von NK11 nicht verhält. Dass das in NK11 offenbarte System in der Lage sein muss, mehrere Sprachkanäle zu unterscheiden und individuell zu verarbeiten, ergibt sich schon aus dem Umstand, dass mehrere Set-Top-Boxen solche Informationen übertragen können und die verarbeiteten Daten an die jeweilige Set-Top-Box zurückgesandt werden müssen, wenn sie lokal zu verarbeitende Befehle enthalten.
Rz. 67
Dies genügt zur Offenbarung von Merkmal 1.2.2, weil dieses keine Festlegungen dazu enthält, in welcher Weise die Aufteilung zu erfolgen hat.
Rz. 68
f) Entgegen der Auffassung der Beklagten ist auch Merkmal 1.2.3 durch NK11 vorweggenommen.
Rz. 69
Hierzu genügt, dass die Sprachdaten, die auf dem Rückkanal an den Server (13) übertragen worden sind, durch eine Spracherkennungssoftware in Textdaten konvertiert werden (S. 10 Z. 25-26). Ein Erkennen des Bedeutungsgehalts ist aus den oben dargelegten Gründen nicht erforderlich.
Rz. 70
g) Ebenfalls zutreffend hat das Patentgericht angenommen, dass NK11 unmittelbar und eindeutig das Merkmal 1.2.4 offenbart.
Rz. 71
Eine für jeden Sprachkanal individuelle Reaktion auf den erkannten Sprachinhalt liegt schon darin, dass die vom Spracherkennungssystem erzeugten Textdaten an die Set-Top-Box des betreffenden Teilnehmers übermittelt werden. Dass der Server hierbei nicht den Bedeutungsgehalt des Texts ermittelt, ist aus den oben aufgezeigten Gründen unerheblich.
Rz. 72
Unabhängig davon sieht NK11 optional weitere Reaktionsmöglichkeiten vor, nämlich die Verarbeitung der Textdaten durch den Server oder durch andere Komponenten des Systems (S. 2 Z. 32-36).
Rz. 73
h) Zutreffend hat das Patentgericht die in NK11 offenbarten E-Mail- und E-Commerce-Dienste als Informationsdienst im Sinne von Merkmal 1.2.5 angesehen.
Rz. 74
Die Lieferung dieser Dienste wird schon dadurch individuell gesteuert, dass die vom Server erzeugten Textdaten wie eine lokale Eingabe weiterverarbeitet werden.
Rz. 75
2. Das damit als einziges nicht unmittelbar und eindeutig offenbarte Teilmerkmal der individuellen Steuerung der Lieferung von Unterhaltungsdiensten hat das Patentgericht zutreffend als naheliegend angesehen.
Rz. 76
Wie bereits oben aufgezeigt wurde, enthält NK11 den Hinweis, dass mit interaktiven Fernsehsystemen eine Vielzahl von Diensten bereitgestellt werden können (S. 1 Z. 13). Ausgehend davon bestand Anlass, die in NK11 geschilderten Funktionen auch für andere Dienste einzusetzen, die in diesem Umfeld in Frage kommen. Dazu gehörte auch das Zurverfügungstellen von Online-Videos oder dergleichen, zumal NK11 mit dem Teleshopping die entgeltliche Überlassung von Gegenständen ausdrücklich erwähnt.
Rz. 77
3. Da die Beklagte das Streitpatent jeweils in kompletten Anspruchssätzen verteidigt, bedürfen die übrigen angegriffenen Ansprüche keiner Erörterung.
Rz. 78
4. Der mit Hilfsantrag 1 verteidigte Gegenstand ist ebenfalls nicht patentfähig.
Rz. 79
a) Nach Hilfsantrag 1 soll die erteilte Fassung von Patentanspruch 1 durch das folgende Merkmal ergänzt werden:
Rz. 80
1.2.6 |
wherein the entertainment and information services comprise a Video-On-Demand service and an Interactive Program Guide. |
wobei die Unterhaltungs- und Informationsdienste einen Video-On-Demand-Dienst und einen interaktiven Programmführer umfassen. |
Rz. 81
b) Der damit verteidigte Gegenstand lag ausgehend von NK11 aus den bereits oben zu Merkmal 1.2.5 dargelegten Gründen nahe.
Rz. 82
Sowohl Video on Demand als auch elektronische Programmführer sind Funktionen, die in Kabelfernsehnetzwerken bekannt waren. Deshalb lag es nahe, die in NK11 beschriebene Funktionalität auch für solche Dienste zu nutzen. Die Nutzung für elektronische Programmführer bot sich schon deshalb an, weil NK11 die Anforderung von Informationen bezüglich Programmen ausdrücklich erwähnt (S. 1 Z. 17-18).
Rz. 83
5. Zutreffend hat das Patentgericht auch den mit Hilfsantrag 4 verteidigten Gegenstand als nahegelegt angesehen.
Rz. 84
a) Nach Hilfsantrag 4 soll die erteilte Fassung von Patentanspruch 1 um folgende Merkmale ergänzt werden:
Rz. 85
1.2.8' |
wherein each user site contains at least one set top box which is associated with a remote control containing a microphone and a talk button; |
wobei jeder Teilnehmerstandort mindestens eine Set-Top-Box umfasst, die mit einer Fernbedienung verbunden ist, welche ein Mikrofon und eine Sprechtaste aufweist; |
1.2.11 |
and wherein upon depressing the talk button on the remote control data are sent to the wireline node alerting the system as to the user site and a potential input. |
und wobei mit Drücken der Sprechtaste auf der Fernbedienung Daten an Leitungsknoten gesendet werden, welche das System über den Teilnehmerstandort und eine mögliche Eingabe des Benutzers informieren. |
Rz. 86
b) Wie die Berufung im Ansatz zutreffend geltend macht, genügt die Übertragung von Daten, die auf den Teilnehmerstandort hinweisen, zur Verwirklichung von Merkmal 1.2.11 nicht. Aus den übertragenen Daten muss zusätzlich hervorgehen, dass eine Benutzereingabe möglich ist, die Teilnehmerdaten also nicht nur aus anderen Gründen übertragen werden.
Rz. 87
Merkmal 1.2.11 gibt jedoch nicht vor, in welcher Weise die Information, dass eine Benutzereingabe möglich ist, zu übermitteln ist. Folglich genügt jede Information, die eine entsprechende Schlussfolgerung ermöglicht. Solche Informationen können sich auch aus dem Kontext ergeben, etwa daraus, dass auf bestimmte Angaben über den Standort des Teilnehmers grundsätzlich eine Benutzereingabe folgt.
Rz. 88
c) Das Patentgericht ist zutreffend davon ausgegangen, dass der mit Hilfsantrag 4 verteidigte Gegenstand ausgehend von NK11 nahegelegt war.
Rz. 89
aa) Da NK11 keine näheren Angaben zur Ausgestaltung des Mikrofons und der Set-Top-Box macht, bestand Anlass, sich mit im Stand der Technik bekannten Ausgestaltungen zu befassen. Anregungen hierzu ergaben sich aus NK9.
Rz. 90
(1) NK9 betrifft ein System für Abonnementfernsehen, bei dem Informationsprovider Informationen über einen Satelliten und ein Headend an Abonnentenstandorte liefern (Sp. 8 Z. 39 bis Sp. 12 Z. 26, Figuren 2A-C).
Rz. 91
Die Informationen umfassen unter anderem analoges Video, analoges Audio und digitales Video (Sp. 8 Z. 47). Bei dem Ausführungsbeispiel nach Figur 2C enthält jeder Teilnehmerstandort ein Teilnehmerendgerät, das mit dem Verteilungsnetz verbunden ist (Sp. 11 Z. 65-67).
Rz. 92
Die Kopfstellenanlage überträgt Vokabeldaten, die ein Vokabular von entsprechenden Lauten oder Wörtern darstellen, an die Teilnehmerendgeräte. Dieses Vokabular ermöglicht die Sprachsteuerung der Geräte und die Sprachsteuerung des Zugriffs auf die von der Kopfstellenanlage übertragenen Informationen. Insbesondere kann das übermittelte Vokabular es dem Benutzer ermöglichen, mit gesprochenen Befehlen durch Fernsehprogramme und andere elektronische Programmführer zu navigieren, Kanäle zu wechseln, einen Videorekorder zu steuern, die Lautstärke einzustellen und den Fernseher ein- und auszuschalten (Sp. 14 Z. 61 bis Sp. 15 Z. 3).
Rz. 93
Als optionales Merkmal schlägt NK9 vor, bei Fernbedienungen, die sprachbezogene Funktionen ausführen, eine Taste zum Sprechen vorzusehen, um Störgeräusche auszuschließen oder die Batterielebensdauer zu verlängern (Sp. 17 Z. 16-19).
Rz. 94
(2) Wie das Patentgericht zutreffend angenommen hat, handelt es sich bei dem Teilnehmerendgerät um eine Set-Top-Box.
Rz. 95
Das Teilnehmerendgerät ist zum Beispiel mit einem Fernsehgerät verbunden. Es empfängt ein Fernsehsignal, das von einem Headend übertragen wird, und gibt dieses an das Fernsehgerät aus (Sp. 11 Z. 66-67; Sp. 12 Z. 5-14).
Rz. 96
(3) NK9 offenbart auch ein Mikrofon mit Sprachtaste im Sinne des Merkmals 1.2.8'.
Rz. 97
(4) Angesichts der in NK9 geschilderten Vorteile einer Sprechtaste bestand für den Fachmann Anlass, auch die Fernbedienung der Set-Top-Box aus NK11 mit einer solchen Taste zu versehen.
Rz. 98
(5) Ebenfalls zu Recht hat das Patentgericht entschieden, dass eine Signalisierung gemäß Merkmal 1.2.11 nahelag, weil bezüglich des Zeitpunkts, zu dem das für die Spracherkennung eingesetzte System auf eine mögliche Benutzereingabe aufmerksam gemacht wird, mehrere Lösungen in Betracht kamen, die ihre spezifischen Vor- und Nachteile haben, und die Auswahl zwischen diesen Möglichkeiten anhand von Zweckmäßigkeitsüberlegungen möglich war.
Rz. 99
(a) Entgegen der Auffassung der Berufung führt der Umstand, dass NK9 in erster Linie eine lokale Spracherkennung vorschlägt, nicht zu einer abweichenden Beurteilung.
Rz. 100
NK9 weist ausdrücklich darauf hin, dass die Verarbeitung auch an anderen Stellen im System stattfinden kann. In einem Ausführungsbeispiel werden die Töne oder gesprochenen Wörter von einem Teilnehmerendgerät an einen Knoten übertragen, der eine Spracherkennungsschaltung enthält (Sp. 33 Z. 49 ff.).
Rz. 101
Der möglichen Reichweite der Fernbedienung kommt in diesem Zusammenhang keine Bedeutung zu. Merkmal 1.2.11 sieht lediglich vor, dass ein Drücken der Sprachtaste das Versenden der Informationen an den Server auslöst, nicht aber, dass diese Informationen von der Fernbedienung unmittelbar an den Server übertragen werden.
Rz. 102
(b) Zu Recht hat das Patentgericht ferner entschieden, dass eine mögliche Benutzereingabe auch durch Übersenden von leeren Sprachpaketen angekündigt werden kann.
Rz. 103
Wie bereits oben dargelegt wurde, genügt jede Information, aus der auf eine mögliche Benutzereingabe geschlossen werden kann. Eine solche Information wird auch dann übermittelt, wenn Sprachpakete übertragen werden. Ob NK9 eine solche Vorgehensweise vorsieht, ist unerheblich. Ausschlaggebend ist, dass sie aus den vom Patentgericht angeführten Gründen jedenfalls nahelag.
Rz. 104
bb) Ebenfalls zu Recht hat das Patentgericht entschieden, dass es nahelag, die Zuordnung von Sprachdaten zu einer bestimmten Set-Top-Box mit Hilfe von Netzwerkadressen zu ermöglichen, wie dies aus dem ETS-Standard (NK16 Abschnitt 5.1.3, erster und zweiter Absatz) bekannt war.
Rz. 105
6. Auch die Verteidigung mit Hilfsantrag 5 hat keinen Erfolg.
Rz. 106
a) Nach Hilfsantrag 5 soll Patentanspruch 1 in der Fassung des Hilfsantrags 4 um folgende Merkmale ergänzt werden:
Rz. 107
1.2.12 |
wherein that network comprises a content engine from which said speech recognition system receives content status information; |
wobei das Netzwerk eine Content-Engine enthält, von der das Spracherkennungssystem Inhaltsstatusinformationen erhält; |
1.2.13 |
wherein the analog signals picked up by the microphone are pre-processed by the remote control. |
wobei die vom Mikrofon aufgenommenen analogen Signale von der Fernsteuerung vorverarbeitet werden. |
1.2.14 |
wherein the set top receives a radio frequency (RF) signal or an infra-red signal from the remote control. |
wobei die Set-Top-Box ein Radiofrequenzsignal oder ein Infrarotsignal von der Fernbedienung empfängt. |
Rz. 108
b) Einige Merkmale bedürfen der Erläuterung.
Rz. 109
aa) Inhaltsstatusinformationen im Sinne von Merkmal 1.2.12 können zum Beispiel aus einer Liste von verfügbaren Diensten (Abs. 268, 336) oder aus einer Liste von verfügbaren Inhalten (Abs. 269, 316) bestehen. Als konkretes Beispiel nennt die Beschreibung einen interaktiven Programmführer (Abs. 269 Z. 51; Abs. 316 Z. 42).
Rz. 110
Beispiele für eine Vorverarbeitung der analogen Mikrofonsignale (Merkmal 1.2.13) sind die Analog-Digital-Wandlung, die Verschlüsselung, Kompression oder Konversion in eine andere Sprachdatenrepräsentation (Abs. 64).
Rz. 111
c) Zutreffend hat das Patentgericht angenommen, dass Merkmal 1.2.12 durch NK9 nahegelegt war.
Rz. 112
aa) Mit dem Informationsverteilungszentrum und dem Headend sind in NK9 Content-Engines beschrieben, die Programmführerdaten verwalten und bereitstellen.
Rz. 113
Nach den Ausführungen in NK9 sendet das Informationsverteilungszentrum Informationen von einem oder mehreren Informationsanbietern an das Endgerät (Sp. 5 Z. 40-44). Diese Informationen enthalten Vokabeldaten (Sp. 5 Z. 59/60). Der Sprachprozessor im Endgerät führt einen Vergleich der Vokabeldaten und der gesprochenen Befehlsdaten durch, um beispielsweise Befehle zur Steuerung des Geräts oder Befehle für den Zugriff auf die von der Informationsverteilungszentrale übermittelten Informationen zu erkennen (Sp. 5 Z. 63 bis Sp. 6 Z. 3).
Rz. 114
Zusätzliche Vokabeldaten könnten von der Kopfstelleninstallation heruntergeladen werden, um einem Benutzer zu ermöglichen, Befehle zu sprechen, indem er zusätzlich zu den Kanalnummern auch Kanalbezeichnungen verwendet (Sp. 28 Z. 50-53). NK9 beschreibt außerdem eine Titelsuche (Sp. 29 Z. 50 ff.) und eine Suche nach Schauspielern (Sp. 30 Z. 19-25).
Rz. 115
bb) Daraus ergab sich die Anregung, auch bei dem Spracherkennungssystem gemäß NK11 entsprechende Informationen bereitzustellen.
Rz. 116
d) NK9 offenbart unmittelbar und eindeutig eine Vorverarbeitung im Sinne des Merkmals 1.2.13 durch die Fernbedienung.
Rz. 117
Nach der Beschreibung in NK9 werden die analogen Sprachsignale in digitale Sprachsignale konvertiert und gegebenenfalls auch in eine spektrale Repräsentation transformiert (Sp. 15 Z. 64 bis Sp. 16 Z. 2; Sp. 16 Z. 32-50, Figuren 5, 6, Blöcke 324 und 340).
Rz. 118
e) Da aus NK9 außerdem bekannt war, dass die Fernbedienung die Äußerungen eines Teilnehmers an das Endgerät in Form von Infrarot- oder Radiofrequenzsignalen übermittelt (Sp. 6 Z. 34-39; Sp. 12 Z. 23-26; Sp. 15 Z. 64 bis Sp. 16 Z. 5), lag auch die Kombination mit Merkmal 1.2.14 nahe.
Rz. 119
7. Das Patentgericht hat zutreffend entschieden, dass auch der mit Hilfsantrag 6 verteidigte Gegenstand ausgehend von NK11 nahegelegt war.
Rz. 120
a) Nach Hilfsantrag 6 soll die erteilte Fassung von Patentanspruch 1 um folgende Merkmale ergänzt werden:
Rz. 121
1.2.15 |
wherein the speech recognition system (3200, 1330) communicates with a content engine (1340), indicating a current user location in a menu structure and/or a requested user action, in particular a video request; |
wobei das Spracherkennungssystem (3200, 1330) mit einer Content-Engine (1340) kommuniziert und eine aktuelle Benutzerposition in einer Menüstruktur und/oder eine angeforderte Benutzeraktion, insbesondere eine Videoanforderung, anzeigt; |
1.2.16 |
and wherein the content engine (1340) provides at least one multimedia stream (1342) to a transceiver (1320) from which it is send to an individual user site. |
und wobei die Content-Engine (1340) mindestens einen Multimediastrom (1342) an einen Transceiver (1320) übermittelt, von dem er an einen individuellen Teilnehmerstandort gesendet wird. |
Rz. 122
b) Einige Merkmale bedürfen der Erläuterung.
Rz. 123
aa) Das Patentgericht ist zutreffend davon ausgegangen, dass eine angeforderte Benutzeraktion im Sinne des Merkmals 1.2.15 eine Handlung des Benutzers ist, zu der dieser aufgefordert worden ist, oder eine Anfrage, die der Benutzer angefordert hat, wie durch die Wörter "in particular a video request" zum Ausdruck kommt.
Rz. 124
bb) Merkmal 1.2.15 schließt nicht aus, dass das System mit mehr als einer Content-Engine kommuniziert.
Rz. 125
cc) Der Multimediastrom im Sinne des Merkmals 1.2.16 muss nicht zwingend ausschließlich an einen einzigen Teilnehmerstandort gesendet werden.
Rz. 126
Wie bei Merkmal 1.2.5 genügt es auch in diesem Zusammenhang, wenn der jeweils gesendete Multimediastrom der Anfrage des jeweiligen Benutzers entspricht.
Rz. 127
Weitergehende Anforderungen sind weder dem Wortlaut von Merkmal 1.2.16 noch den darauf bezogenen Ausführungen in der Beschreibung zu entnehmen.
Rz. 128
c) Zutreffend hat das Patentgericht eine solche Ausgestaltung ausgehend von NK11 als durch NK12 nahegelegt angesehen.
Rz. 129
aa) Ohne Erfolg macht die Berufung geltend, die Entgegenhaltung NK12 gehöre nicht zum Stand der Technik.
Rz. 130
Wie das Patentgericht in seinem Hinweis gemäß § 83 Abs. 1 PatG ausgeführt hat, ist die Veröffentlichung von NK12 vor dem Prioritätstag durch den Aufdruck "Vol. 38 No. 08 August 1995 IBM Technical Disclosure Bulletin" und durch die Wiedergabe dieser Angaben und des Titels des Beitrags im internationalen Recherchebericht der NK11 bewiesen.
Rz. 131
Dass NK12 im Recherchebericht des Streitpatents keine Erwähnung findet, obwohl das IBM Technical Disclosure Bulletin als durchsucht angegeben wurde, vermag vor diesem Hintergrund keine Zweifel an einer Veröffentlichung vor dem 27. April 2000 zu begründen.
Rz. 132
bb) NK12 beschreibt Methoden zur Verwendung von Spracherkennung, um Fernsehbilder, Audiodaten und sonstige Daten auszuwählen oder zu verändern, die über ein Kabelfernsehsystem an einen Teilnehmer übertragen werden (S. 285, erster Satz unter Figur 1). Die durch das Spracherkennungssystem interpretierten Sprachbefehle stellen verschiedene Funktionen bereit, wie das Wechseln von Kanälen oder die Auswahl von Filmen zum Ansehen (S. 286 Abs. 1).
Rz. 133
Ein Ausführungsbeispiel ist in der nachfolgend wiedergegebenen Figur 3 dargestellt.
Rz. 134
Bei dieser Ausführungsform sind der TV-Signal-Generator (29) und das Kabel-TV-System (30) netzwerkseitig angeordnet.
Rz. 135
dd) Der Sprachbefehl, mit dem bei dem in NK12 offenbarten System ein bestimmtes Video ausgewählt wird, ist eine Videoanforderung im Sinne des Merkmals 1.2.15.
Rz. 136
Da der TV-Signal-Generator (29) und das Kabel-TV-System (30) die gewünschten Inhalte bereitstellen, muss insoweit eine Kommunikation mit dem Spracherkennungssystem (28) erfolgen, in der die Auswahl des Videos angezeigt wird.
Rz. 137
ee) Dass auf die Anfrage an den TV-Signal-Generator (29) oder das Kabel-TV-System (30) mit dem Senden eines Multimediastroms an den anfordernden Teilnehmer reagiert wird, ist in NK12 zwar nicht ausdrücklich erwähnt, unterliegt aber schon deshalb keinem Zweifel, weil die Anforderung eines Videos auf dieses Ziel gerichtet ist.
Rz. 138
Nach den insoweit nicht beanstandeten Feststellungen des Patentgerichts geht die Verwendung eines Transceivers zu diesem Zweck nicht über eine fachübliche Maßnahme hinaus.
Rz. 139
8. Das Patentgericht hat den mit Hilfsantrag 7 verteidigten Gegenstand zutreffend als ebenfalls nicht patentfähig angesehen.
Rz. 140
a) Nach Hilfsantrag 7 soll die erteilte Fassung von Patentanspruch 1 um folgendes Merkmal ergänzt werden:
Rz. 141
1.2.17 |
Further comprising at least one of the steps of: determining said associated user site (1100) from said recognized speech content; determining said associated user site (1100) from said recognized speech content and a speaker identification library; determining said associated user site (1100) from said recognized speech content and a speech recognition library; and determining said associated user site (1100) from an identification within said speech channel. |
Ferner umfasst es mindestens einen der folgenden Schritte: Bestimmen des zugeordneten Teilnehmerstandorts (1100) aus dem erkannten Sprachinhalt; Bestimmen des zugeordneten Teilnehmerstandorts (1100) aus dem erkannten Sprachinhalt und einer Sprecheridentifikationsbibliothek; Bestimmen des zugeordneten Teilnehmerstandorts (1100) aus dem erkannten Sprachinhalt und einer Spracherkennungsbibliothek; und Bestimmen des zugeordneten Teilnehmerstandorts (1100) aus einer Identifikation innerhalb des Sprachkanals. |
Rz. 142
b) Ausgehend von NK11 lagen der erste und der vierte der in Merkmal 1.2.17 vorgesehenen Schritte nahe.
Rz. 143
aa) Zu Recht hat das Patentgericht angenommen, dass es ausgehend von NK11 nahelag, die im Rahmen einer Teleshopping-Anwendung per Sprache übermittelte Versandadresse auch serverseitig einer Plausibilitätsprüfung zu unterziehen.
Rz. 144
Entgegen der Auffassung der Berufung beziehen sich die Ausführungen des Patentgerichts nicht auf die in NK11 ausdrücklich vorgesehene Überprüfung der Adressdaten durch den Benutzer. Vielmehr geht es um eine zusätzliche Überprüfung auf dem Server. Dies entspricht dem ersten Schritt von Merkmal 1.2.17.
Rz. 145
bb) Wie zu Hilfsantrag 4 ausgeführt wurde, lag es nahe, die übermittelten Sprachdaten durch die aus NK16 bekannten Netzwerkadressen zu kennzeichnen, um eine Zuordnung zur Set-Top-Box zu ermöglichen, die die Daten übermittelt hat. Dies entspricht dem vierten Schritt.
Rz. 146
9. Mit Hilfsantrag 8 hat die Berufung ebenfalls keinen Erfolg.
Rz. 147
a) Hilfsantrag 8 entspricht Hilfsantrag 7 mit der Maßgabe, dass der letzte alternative Verfahrensschritt entfällt.
Rz. 148
b) Daraus ergibt sich im Vergleich zu Hilfsantrag 7 keine abweichende Beurteilung, da aus den oben angeführten Gründen auch der erste Schritt nahelag.
Rz. 149
IV. Die Kostenentscheidung beruht auf § 121 Abs. 2 PatG und § 97 Abs. 1 ZPO.
Bacher |
|
Deichfuß |
|
Kober-Dehm |
|
Rombach |
|
Crummenerl |
|
Fundstellen
Dokument-Index HI16529034 |