Car-tech

Google: 129 εκατομμύρια διαφορετικά βιβλία έχουν δημοσιευθεί

What we learned from 5 million books

What we learned from 5 million books
Anonim

Για όσους έχουν αναρωτηθεί πόσα διαφορετικά βιβλία υπάρχουν εκεί έξω, η Google έχει μια απάντηση για εσάς: 129,864,880, σύμφωνα με τον Leonid Taycher, μηχανικό λογισμικού της Google που εργάζεται στο πρόγραμμα Google Books.

Εκτίμηση του αριθμού των βιβλίων στον κόσμο είναι κάτι παραπάνω από μια περιέργεια για τον γίγαντα της έρευνας: παρέχει επίσης έναν χάρτη πορείας για ένα μέρος των εργασιών που πρέπει να γίνουν για να επιτευχθεί ο φιλόδοξος στόχος της εταιρείας να οργανώσει όλες τις πληροφορίες του κόσμου. είστε μέρος μιας επιχείρησης που προσπαθεί να ψηφιοποιήσει όλα τα βιβλία στον κόσμο, το πρώτο ερώτημα που παίρνετε συχνά είναι: «Πόσα βιβλία είναι εκεί έξω;», εξήγησε ο Taycher σε μια θέση στο blog που ανακοινώνει την εκτίμηση. > [Περαιτέρω ανάγνωση: Οι καλύτερες υπηρεσίες τηλεοπτικής ροής]

Για να καταλήξουμε σε μια λογική προσέγγιση, η εταιρεία ξεκίνησε καταγράφοντας πληροφορίες βιβλίων από πολλαπλά συστήματα καταλογογράφησης, όπως οι Διεθνείς Τυποποιημένοι Αριθμοί Βιβλίων (ISBN).

Αυτοί οι κατάλογοι, αν και χρήσιμοι, δεν παρέχουν οριστικό αριθμό, ωστόσο. Για παράδειγμα, τα ISBNs έχουν ανατεθεί σε βιβλία μόνο από τη δεκαετία του 1960 και τείνουν να χρησιμοποιούνται μόνο στις δυτικές χώρες.

Επίσης έχουν εκχωρηθεί πολλαπλά βιβλία σε μεμονωμένους αριθμούς ISBN και ο εκδότης έχει αντιστοιχίσει ISBN σε άλλα αντικείμενα εκτός από τα βιβλία, όπως τα t-shirts και τα DVD

Έτσι, οι μηχανικοί της Google έχουν γράψει προγράμματα για να χτυπήσουν περίπου 150 τέτοιους καταλόγους και καταλόγους και να εξαλείψουν όσες περισσότερες διπλές εγγραφές θα μπορούσαν να βρεθούν.

Η εταιρεία έπρεπε επίσης να κάνει αρκετούς σκληρές αποφάσεις σχετικά με το τι είναι και δεν είναι ένα βιβλίο, εξήγησε ο Taycher.

Για παράδειγμα, οι μαλακές εξώφυλλες και οι σκληρές εκδόσεις ενός κειμένου λογίζονται ως δύο βιβλία, όπως και οι πολλές διαφορετικές εκδοχές ενός δημοφιλούς κειμένου, όπως το Shakespeare's "Hamlet", λόγω των προειδοποιήσεων και των σχολίων που μπορεί να περιέχουν. Οι σειρές μπορούν να θεωρηθούν ως μεμονωμένα βιβλία ή ως εργασία που συλλέχθηκε.

Από τον Ιούνιο η εταιρεία έχει σαρώσει 12 εκατομμύρια βιβλία, σύμφωνα με μια παρουσίαση που έδωσε ο διευθυντής μηχανικών Google Books Jon Orwant στο ετήσιο τεχνικό συνέδριο USENIX στη Βοστώνη. Αυτά τα βιβλία έχουν γραφτεί σε περίπου 480 γλώσσες (συμπεριλαμβανομένων 3 βιβλίων στην Klingon γλώσσα που προέρχεται από Star Trek).

Η εταιρεία σχεδιάζει να ολοκληρώσει τη σάρωση των υπαρχόντων βιβλίων μέσα σε μια δεκαετία. Η προκύπτουσα εικονική συλλογή θα αποτελείται από τέσσερα δισεκατομμύρια σελίδες και δύο τρισεκατομμύρια λέξεις, ανέφερε ο Orwant.

Περίπου το 20% των βιβλίων του κόσμου είναι δημόσια, εξήγησε ο Orwant. Περίπου το 10 έως 15 τοις εκατό αυτών των βιβλίων είναι σε έντυπη μορφή. Τα υπόλοιπα βιβλία - η συντριπτική πλειοψηφία όλων των τίτλων - εξακολουθούν να υπόκεινται σε πνευματικά δικαιώματα, αλλά δεν έχουν εκτυπωθεί. Η Google βρίσκεται στη διαδικασία δανεισμού αντιγράφων αυτών των βιβλίων για την ψηφιοποίησή τους από περίπου 40 μεγάλες βιβλιοθήκες παγκοσμίως

Είναι αυτή η πράξη της σάρωσης σε βιβλία που είναι εκτός εκτύπωσης αλλά εξακολουθούν να καλύπτονται από πνευματικά δικαιώματα που έχει επιτευχθεί με την αντίσταση της εκδοτικής βιομηχανίας

Η εταιρεία περιμένει τώρα μια απόφαση από το Επαρχιακό Δικαστήριο των ΗΠΑ για τη Νότια Περιφέρεια της Νέας Υόρκης σχετικά με το εάν μπορεί να σαρώσει αυτά τα βιβλία

Το 2005, η Ένωση Αμερικανικών Εκδοτών κατέθεσε ξεχωριστά αγωγές κατηγορίας ενάντια στον γίγαντα της έρευνας, υποστηρίζοντας ότι η εταιρεία παραβιάζει τα πνευματικά δικαιώματα των συγγραφέων με τη σάρωση στα βιβλία

Η Google ισχυρίστηκε ότι θέλει να πουλήσει ψηφιακά αντίγραφα αυτών των αλλιώς εξω- να εκτυπώσετε βιβλία και να ακυρώσετε δικαιώματα για τους δημιουργούς που θα διεκδικήσουν. Η εταιρεία ελπίζει επίσης να αποκαλύψει αποσπάσματα αυτών των βιβλίων σε αναζητήσεις στο Web και υποστηρίζει ότι αυτή η χρήση εμπίπτει στο δόγμα της αμερικανικής χρηστής χρήσης.

Η σάρωση σε όλα τα βιβλία του κόσμου θα οδηγήσει σε άλλα οφέλη εκτός από τις βελτιωμένες αναζητήσεις, εξηγεί ο Orwant. Μόλις ψηφιοποιηθούν όλοι αυτοί οι τόμοι, το περιεχόμενό τους μπορεί να υποβληθεί σε ανάλυση, η οποία μπορεί να οδηγήσει σε νέες ιδέες. Οι γλωσσολόγοι μπορούν να ανακαλύψουν πότε ορισμένες λέξεις ήρθαν σε ευρεία χρήση, ή που αρχίζουν να χρησιμοποιούν αυτές τις λέξεις.

Η Αναζήτηση Βιβλίων Google θα μπορούσε επίσης να βοηθήσει στην απάντηση σε μερικά εξαιρετικά ιστορικά ερωτήματα: Για παράδειγμα, θα μπορούσε να ενημερώσει τη συζήτηση για το αν ο Isaac Newton και ο Gottfried Leibniz - ή κάποιος άλλος εξ ολοκλήρου - επινόησαν λογισμό.

φράση, αλλά για μια έννοια "εξήγησε ο Orwant. "Μπορούμε να πάρουμε όλους τους διαφορετικούς τρόπους [ότι η ιδέα του] άπειρου μπορεί να παραμορφωθεί, να μεταφραστεί σε διαφορετικές γλώσσες και να γίνει παράλληλη αναζήτηση."

"Η ελπίδα μου είναι ότι καθώς αρχίζουμε να εκθέτουμε πολύ περισσότερα αυτή η συλλογή, θα επιτρέψει στους ανθρώπους να θέτουν ερωτήματα όπως αυτό που δεν μπόρεσαν να ζητήσουν πριν », ανέφερε.

Ο συντάκτης της υπηρεσίας ειδήσεων του Juan Carlos Perez συνέβαλε στην έκθεση αυτή.

Ο Joab Jackson καλύπτει επιχειρησιακό λογισμικό και γενικές τεχνολογικές εξελίξεις για το

Η υπηρεσία ειδήσεων IDG

. Ακολουθήστε τον Joab στο Twitter στο @Joab_Jackson. Η διεύθυνση ηλεκτρονικού ταχυδρομείου του Joab είναι [email protected]