Γιατί όλοι μιλούν για την DeepSeek: Πώς μια μικρή κινεζική εταιρεία AI έχει κάνει τους τεχνολογικούς γίγαντες στις ΗΠΑ να τρέμουν

DeepSeek

Η DeepSeek, μια κινεζική εταιρεία τεχνητής νοημοσύνης (AI), έχει προκαλέσει αναστάτωση στον κόσμο της τεχνολογίας με την κυκλοφορία εξαιρετικά αποδοτικών μοντέλων AI, τα οποία μπορούν να ανταγωνιστούν τα πιο προηγμένα προϊόντα από αμερικανικές εταιρείες όπως η OpenAI και η Anthropic.

Ιδρυμένη το 2023, η DeepSeek έχει καταφέρει να επιτύχει αυτά τα αποτελέσματα με πολύ λιγότερα χρήματα και υπολογιστική ισχύ σε σύγκριση με τους ανταγωνιστές της.

Τι έχει καταφέρει η DeepSeek;

Τον Δεκέμβριο του 2023, η DeepSeek κυκλοφόρησε το μοντέλο V3, ένα ισχυρό μεγάλο γλωσσικό μοντέλο (large language model) που παρουσιάζει παρόμοια επίδοση με το GPT-4 της OpenAI και το Claude 3.5 της Anthropic. Αν και αυτά τα μοντέλα μπορεί να κάνουν λάθη ή να «εφευρίσκουν» πληροφορίες, μπορούν να εκτελούν εργασίες όπως απάντηση σε ερωτήσεις, συγγραφή κειμένων και δημιουργία κώδικα. Σε ορισμένες δοκιμές προβλημάτων και μαθηματικής λογικής, τα αποτελέσματά τους ξεπερνούν αυτά του μέσου ανθρώπου.

Το V3 εκπαιδεύτηκε με κόστος περίπου 5,58 εκατομμύρια δολάρια, πολύ χαμηλότερο από το κόστος ανάπτυξης του GPT-4, το οποίο ξεπερνά τα 100 εκατομμύρια δολάρια. Επιπλέον, η DeepSeek χρησιμοποίησε μόνο 2.000 ειδικά τσιπ (H800 GPUs της NVIDIA) για την εκπαίδευση του V3, σε αντίθεση με άλλες εταιρείες που χρησιμοποιούν έως και 16.000 πιο ισχυρά τσιπ (H100).

Στις 20 Ιανουαρίου 2024, η DeepSeek κυκλοφόρησε το μοντέλο R1, ένα «μοντέλο συλλογισμού» που επιλύει σύνθετα προβλήματα βήμα προς βήμα. Το R1 είναι μια βελτιωμένη έκδοση του V3, η οποία βασίζεται σε μια τεχνική που ονομάζεται ενισχυτική μάθηση (reinforcement learning). Το R1 φαίνεται να έχει παρόμοια απόδοση με το o1 της OpenAI, το οποίο κυκλοφόρησε το προηγούμενο έτος.

Βίντεο

Πώς τα κατάφερε η DeepSeek;

Η DeepSeek έχει καταφέρει να επιτύχει μεγαλύτερη αποδοτικότητα, δηλαδή καλύτερα αποτελέσματα με λιγότερους πόρους. Οι ερευνητές της εταιρείας έχουν πρωτοπορήσει σε δύο τεχνικές που ενδέχεται να υιοθετηθούν ευρύτερα από την κοινότητα της AI.

  1. Sparsity: Τα μοντέλα AI έχουν εκατοντάδες δισεκατομμύρια παραμέτρους, αλλά μόνο ένα μικρό μέρος αυτών χρησιμοποιείται για κάθε δεδομένο εισόδου. Η DeepSeek ανέπτυξε μια νέα τεχνική για την πρόβλεψη των παραμέτρων που θα χρειαστούν και εκπαίδευσε μόνο αυτές, μειώνοντας δραματικά τον απαιτούμενο χρόνο εκπαίδευσης.
  2. Συμπίεση δεδομένων: Η DeepSeek βρήκε έναν έξυπνο τρόπο να συμπιέζει τα δεδομένα, διευκολύνοντας την αποθήκευση και την πρόσβαση σε αυτά.

Τι σημαίνει αυτό για την αγορά και τους χρήστες;

Η DeepSeek έχει κυκλοφορήσει τα μοντέλα και τις τεχνικές της ως open source υπό την άδεια MIT, πράγμα που σημαίνει ότι ο κώδικας και οι τεχνολογίες της είναι δωρεάν προσβάσιμα σε όλους.

Πρακτικά, αυτό επιτρέπει σε ερευνητές, προγραμματιστές και εταιρείες να κατεβάσουν, να τροποποιήσουν και να χρησιμοποιήσουν τα μοντέλα της DeepSeek χωρίς περιορισμούς. Αυτή η κίνηση ενισχύει τη συνεργασία και την καινοτομία στον τομέα της τεχνητής νοημοσύνης, καθώς περισσότεροι άνθρωποι μπορούν να πειραματιστούν και να βελτιώσουν τις τεχνολογίες.

Επιπλέον, η open source φιλοσοφία κάνει την AI πιο προσβάσιμη σε μικρότερες εταιρείες και ερευνητικούς φορείς που δεν διαθέτουν τους τεράστιους πόρους των τεχνολογικών γιγάντων.

Για τους καταναλωτές, η πρόσβαση στην τεχνητή νοημοσύνη μπορεί να γίνει πιο φθηνή. Περισσότερα μοντέλα AI θα μπορούν να τρέχουν σε συσκευές όπως laptops ή smartphones, χωρίς να χρειάζεται να βασίζονται σε συνδρομητικές υπηρεσίες «στο Cloud».

Τι σημαίνει για τους μεγάλους παίκτες;

Η αποδοτικότητα της DeepSeek μπορεί να μην επηρεάσει σημαντικά τους μεγάλους παίκτες που διαθέτουν ήδη τεράστιους πόρους. Ωστόσο, η εταιρεία έχει ήδη προκαλέσει αναστάτωση στις αγορές, με την αξία της NVIDIA να μειώθηκε κατά 600 δισεκατομμύρια δολάρια λόγω της επανεκτίμησης του κλάδου της AI από τους επενδυτές.

Η DeepSeek έχει αποδείξει ότι η καινοτομία δεν απαιτεί πάντα τεράστιους πόρους. Με τις τεχνικές της, η εταιρεία έχει ανοίξει νέους δρόμους για την ανάπτυξη της τεχνητής νοημοσύνης, προκαλώντας αναστάτωση στους γίγαντες της τεχνολογίας και προσφέροντας νέες ευκαιρίες σε ερευνητές και καταναλωτές.

 

 

 

 

Scroll to Top