Car-tech

Google: 129 Millionen verschiedene Bücher wurden veröffentlicht

What we learned from 5 million books

What we learned from 5 million books
Anonim

Für diejenigen, die sich jemals gefragt haben, wie viele verschiedene Bücher es auf der Welt gibt, hat Google eine Antwort für Sie: 129.864.880, laut Leonid Taycher, einem Google-Softwareingenieur, der am Google Books-Projekt arbeitet.

Schätzung der Anzahl Die Suche nach Büchern in der Welt ist mehr als eine Neugierde für den Suchriesen: Sie bietet auch einen Überblick über einige der Arbeiten, die noch geleistet werden müssen, um das ehrgeizige Ziel des Unternehmens zu erfüllen, alle Informationen der Welt zu organisieren.

"Wann Sie sind Teil einer Firma, die versucht, alle Bücher der Welt zu digitalisieren, die erste Frage, die Sie oft bekommen, ist: "Wie viele Bücher gibt es da draußen?", erklärte Taycher in einem Blogbeitrag, der die Schätzung ankündigte.

[Lesen Sie weiter: Die besten TV-Streaming-Dienste]

Um eine vernünftige Annäherung zu erreichen, begann das Unternehmen mit der Erfassung von Buchinformationen aus mehreren Katalogsystemen, wie den Internationalen Standardbuchnummern (ISBN).

Solche Kataloge sind zwar hilfreich, liefern jedoch keine definitive Zählung, jedoch. Zum Beispiel sind ISBNs seit den 1960ern nur noch Büchern zugeordnet worden und werden nur in den westlichen Ländern verwendet.

Auch mehrere Bücher wurden einzelnen ISBN-Nummern zugewiesen, und Herausgeber haben ISBNs anderen Artikeln als Büchern zugewiesen, wie etwa T-Shirts und DVDs.

Also haben Google-Ingenieure Programme geschrieben, um etwa 150 solcher Kataloge und Verzeichnisse zu durchforsten und so viele doppelte Einträge zu eliminieren, wie sie gefunden werden konnten.

Das Unternehmen musste auch eine Reihe von machen schwierige Entscheidungen darüber, was ein Buch ist und was nicht, erklärte Taycher.

Zum Beispiel werden Softcover- und Hardcover-Ausgaben eines Textes als zwei Bücher gezählt, ebenso wie die vielen verschiedenen Versionen eines populären Textes, wie Shakespeares "Hamlet", aufgrund der Vorworte und Kommentare, die sie enthalten können. Zeitschriften können als einzelne Bücher oder als gesammeltes Werk gezählt werden.

Seit Juni hat das Unternehmen 12 Millionen Bücher gescannt, wie eine Präsentation des technischen Managers von Google Books, Jon Orwant, auf der USENIX Annual Technical Conference in Boston zeigt. Diese Bücher wurden in ungefähr 480 Sprachen geschrieben (darunter 3 Bücher in der von Star Trek entwickelten Klingonischen Sprache).

Das Unternehmen plant, die Überprüfung bestehender Bücher innerhalb eines Jahrzehnts abzuschließen. Die resultierende virtuelle Sammlung werde aus vier Milliarden Seiten und zwei Billionen Wörtern bestehen, erklärte Orwant.

Ungefähr 20 Prozent der Bücher der Welt sind öffentlich zugänglich, erklärte Orwant. Etwa 10 bis 15 Prozent dieser Bücher sind gedruckt. Die restlichen Bücher - die überwiegende Mehrheit aller Titel - sind noch urheberrechtlich geschützt, aber vergriffen. Google ist gerade dabei, Kopien dieser Bücher auszuleihen, um sie aus etwa 40 großen Bibliotheken weltweit zu digitalisieren.

Es ist dieser Akt des Einscannens von Büchern, die vergriffen sind, aber immer noch durch das Urheberrecht abgedeckt sind mit etwas Widerstand seitens der Verlagsbranche.

Das Unternehmen wartet nun auf ein Urteil des US-Bezirksgerichts für den Südbezirk von New York, ob es diese Bücher scannen kann.

Im Jahr 2005 haben die Autorengilde und Die Association of American Publishers reichte Sammelklagen gegen den Suchgiganten ein und behauptete, dass das Unternehmen Autorenrechte durch das Einscannen der Bücher verletze.

Google hat behauptet, dass es digitale Kopien von diesen verkaufen will. Bücher drucken und Lizenzgebühren für die Autoren zur Verfügung stellen. Das Unternehmen hofft außerdem, bei Web-Recherchen Ausschnitte aus diesen Büchern preiszugeben, und behauptet, diese Verwendung falle unter die Fair-Use-Doktrin der USA.

Das Scannen in allen Büchern der Welt wird neben der Verbesserung der Suche weitere Vorteile bringen, erklärte Orwant. Sobald alle diese Bände digitalisiert sind, können ihre Inhalte analysiert werden, was zu neuen Erkenntnissen führen kann. Linguisten können herausfinden, wann bestimmte Wörter weit verbreitet waren oder wer zuerst mit diesen Worten begann.

Die Google Buchsuche könnte auch dazu beitragen, einige herausragende historische Fragen zu beantworten: Sie könnte zum Beispiel die Debatte darüber beeinflussen, ob Isaac Newton und Gottfried Leibniz - oder ein ganz anderer - das Kalkül erfunden haben.

"Wir können nicht nur nach einem suchen aber für ein Konzept ", erklärte Orwant. "Wir können all die verschiedenen Möglichkeiten, die die Idee der Unendlichkeit hervorbringen, nehmen, sie in verschiedene Sprachen übersetzen und parallel suchen."

"Ich hoffe, dass wir viel mehr davon aufdecken Diese Sammlung wird es Leuten erlauben, Fragen wie diese zu stellen, die sie vorher nicht stellen konnten ", sagte er.

IDG Nachrichtenredakteur Juan Carlos Perez hat zu diesem Bericht beigetragen.

Joab Jackson deckt Unternehmenssoftware ab und allgemeine Technologie aktuelle Nachrichten für Der IDG News Service. Folge Joab auf Twitter unter @Joab_Jackson. Joabs E-Mail-Adresse ist [email protected]