Η κινεζική εταιρεία τεχνητής νοημοσύνης (AI) DeepSeek έχει προκαλέσει αναστάτωση στην τεχνολογική κοινότητα με την κυκλοφορία εξαιρετικά αποδοτικών μοντέλων AI που μπορούν να ανταγωνιστούν τα κορυφαία προϊόντα από αμερικανικές εταιρείες όπως η OpenAI και η Anthropic.
Ιδρυμένη το 2023, η DeepSeek έχει επιτύχει εντυπωσιακά αποτελέσματα με ένα κλάσμα των χρημάτων και της υπολογιστικής ισχύος των ανταγωνιστών της.
Τι έκανε η DeepSeek
Τον Δεκέμβριο, η DeepSeek κυκλοφόρησε το μοντέλο V3. Αυτό είναι ένα πολύ ισχυρό «τυπικό» μεγάλο γλωσσικό μοντέλο που αποδίδει σε επίπεδο παρόμοιο με το GPT-4 της OpenAI και το Claude 3.5 της Anthropic.
Αν και αυτά τα μοντέλα είναι επιρρεπή σε σφάλματα και μερικές φορές δημιουργούν δικά τους γεγονότα, μπορούν να εκτελούν εργασίες όπως η απάντηση σε ερωτήσεις, η συγγραφή δοκιμίων και η δημιουργία υπολογιστικού κώδικα. Σε ορισμένες δοκιμές επίλυσης προβλημάτων και μαθηματικής λογικής, αποδίδουν καλύτερα από τον μέσο άνθρωπο.
Το V3 εκπαιδεύτηκε με κόστος περίπου 5,58 εκατομμυρίων δολαρίων, που είναι δραματικά φθηνότερο από το GPT-4, το οποίο κόστισε πάνω από 100 εκατομμύρια δολάρια για την ανάπτυξή του.
Η DeepSeek ισχυρίζεται επίσης ότι εκπαίδευσε το V3 χρησιμοποιώντας περίπου 2.000 εξειδικευμένα τσιπ υπολογιστών, συγκεκριμένα H800 GPUs της NVIDIA, αριθμός που είναι πολύ μικρότερος από άλλες εταιρείες που μπορεί να χρησιμοποίησαν έως και 16.000 πιο ισχυρά τσιπ H100.
Το μοντέλο R1
Στις 20 Ιανουαρίου, η DeepSeek κυκλοφόρησε ένα άλλο μοντέλο, το R1. Αυτό είναι ένα λεγόμενο «λογιστικό» μοντέλο, το οποίο προσπαθεί να επιλύσει πολύπλοκα προβλήματα βήμα προς βήμα. Αυτά τα μοντέλα φαίνεται να είναι καλύτερα σε πολλές εργασίες που απαιτούν συμφραζόμενα και έχουν πολλαπλά αλληλένδετα μέρη, όπως η κατανόηση κειμένου και ο στρατηγικός σχεδιασμός.
Το μοντέλο R1 είναι μια τροποποιημένη έκδοση του V3, που έχει τροποποιηθεί με μια τεχνική που ονομάζεται ενισχυτική μάθηση. Το R1 φαίνεται να λειτουργεί σε επίπεδο παρόμοιο με το o1 της OpenAI, που κυκλοφόρησε πέρυσι.
Πώς τα κατάφερε
Οι καινοτομίες της DeepSeek επικεντρώνονται στην επίτευξη μεγαλύτερης αποδοτικότητας: στην επίτευξη καλών αποτελεσμάτων με λιγότερους πόρους. Ιδιαίτερα, οι προγραμματιστές της DeepSeek έχουν αναπτύξει δύο τεχνικές που μπορεί να υιοθετηθούν ευρύτερα από τους ερευνητές AI.
Η πρώτη σχετίζεται με μια μαθηματική ιδέα που ονομάζεται «σπανιότητα». Τα μοντέλα AI έχουν πολλούς παραμέτρους που καθορίζουν τις απαντήσεις τους σε εισόδους (το V3 έχει περίπου 671 δισεκατομμύρια), αλλά μόνο ένα μικρό ποσοστό αυτών των παραμέτρων χρησιμοποιείται για οποιαδήποτε δεδομένη είσοδο.
Η DeepSeek χρησιμοποίησε μια νέα τεχνική για να προβλέψει ποιες παράμετροι θα χρειαστούν και στη συνέχεια εκπαίδευσε μόνο αυτές τις παραμέτρους, με αποτέλεσμα τα μοντέλα της να χρειάζονται πολύ λιγότερη εκπαίδευση από μια συμβατική προσέγγιση.
Η δεύτερη τεχνική σχετίζεται με το πώς το V3 αποθηκεύει πληροφορίες στη μνήμη υπολογιστή. Η DeepSeek έχει βρει έναν έξυπνο τρόπο να συμπιέσει τα σχετικά δεδομένα, ώστε να είναι πιο εύκολο να αποθηκευτούν και να προσπελαστούν γρήγορα.
Τι σημαίνει αυτό
Τα μοντέλα και οι τεχνικές της DeepSeek έχουν κυκλοφορήσει υπό την ελεύθερη άδεια MIT, που σημαίνει ότι ο καθένας μπορεί να τα κατεβάσει και να τα τροποποιήσει.
Ενώ αυτό μπορεί να είναι κακή είδηση για ορισμένες εταιρείες AI – των οποίων τα κέρδη μπορεί να μειωθούν από την ύπαρξη ισχυρών μοντέλων που είναι διαθέσιμα δωρεάν – είναι εξαιρετικά νέα για την ευρύτερη κοινότητα έρευνας AI.
Αυτή τη στιγμή, πολλή έρευνα AI απαιτεί πρόσβαση σε τεράστιες ποσότητες υπολογιστικών πόρων. Ερευνητές που εργάζονται σε πανεπιστήμια ή σε άλλες μη μεγάλες τεχνολογικές εταιρείες έχουν περιορισμένες δυνατότητες να διεξάγουν δοκιμές και πειράματα.
Οι πιο αποδοτικές μέθοδοι και μοντέλα αλλάζουν την κατάσταση. Η πειραματική εργασία και η ανάπτυξη μπορεί τώρα να είναι σημαντικά πιο εύκολες για εμάς.
Για τους καταναλωτές, η πρόσβαση στην AI μπορεί επίσης να γίνει φθηνότερη. Περισσότερα μοντέλα AI μπορεί να εκτελούνται στις δικές τους συσκευές, όπως φορητοί υπολογιστές ή τηλέφωνα, αντί να λειτουργούν «στο cloud» με χρέωση συνδρομής.
Για τους ερευνητές που ήδη διαθέτουν πολλούς πόρους, η μεγαλύτερη αποδοτικότητα μπορεί να έχει λιγότερη επίδραση. Είναι ασαφές αν η προσέγγιση της DeepSeek θα βοηθήσει στην παραγωγή μοντέλων με καλύτερη απόδοση συνολικά ή απλώς πιο αποδοτικών μοντέλων.