Οι ερευνητές της OpenAI παραδέχθηκαν ότι ακόμη και τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης (AI) παραμένουν πίσω από τους ανθρώπινους προγραμματιστές. Παρά τις δηλώσεις του CEO, Σαμ Άλτμαν ότι η AI θα μπορεί να «νικήσει τους χαμηλού επιπέδου προγραμματιστές» μέχρι το τέλος του έτους, τα δεδομένα δείχνουν διαφορετικά.
Οι ερευνητές της OpenAI διαπίστωσαν ότι ακόμη και η καλύτερη τεχνητή νοημοσύνη είναι «ανίκανη να λύσει την πλειονότητα» των προβλημάτων στο γράψιμο κώδικα
Το Benchmark SWE-Lancer
Σε μια νέα μελέτη, οι ερευνητές χρησιμοποίησαν ένα νεοαναπτυγμένο benchmark, το SWE-Lancer, το οποίο βασίζεται σε περισσότερα από 1.400 καθήκοντα προγραμματισμού από την πλατφόρμα Upwork. Δοκίμασαν τρία μεγάλες γλωσσικά μοντέλα (LLMs) – το δικό τους μοντέλο o1 reasoning και τη ναυαρχίδα GPT-4o, καθώς και το Claude 3.5 Sonnet της OpenAI.
Εκτελέσεις καθηκόντων
Το νέο benchmark αξιολόγησε την απόδοση των LLMs σε δύο κατηγορίες καθηκόντων από την Upwork: τα ατομικά καθήκοντα, που περιλάμβαναν τη διόρθωση σφαλμάτων και την εφαρμογή λύσεων και τα καθήκοντα διαχείρισης, όπου τα μοντέλα προσπαθούσαν να κάνουν πιο στρατηγικές αποφάσεις. Χωρίς πρόσβαση στο διαδίκτυο, τα μοντέλα δεν μπορούσαν να αναζητήσουν έτοιμες λύσεις.
Περιορισμοί και αποτελέσματα
Τα μοντέλα κλήθηκαν να αναλάβουν καθήκοντα αξίας εκατοντάδων χιλιάδων δολαρίων στην Upwork, αλλά μόνο κατάφεραν να διορθώσουν επιφανειακά προβλήματα λογισμικού. Δεν μπόρεσαν να εντοπίσουν σφάλματα σε μεγαλύτερα έργα ή να βρουν τις ρίζες τους. Οι ερευνητές σημειώνουν ότι οι λύσεις τους ήταν «λανθασμένες ή ανεπαρκείς».
Παρά το γεγονός ότι όλα τα LLMs λειτουργούσαν «πολύ γρηγορότερα από ό,τι θα έκανε ένας άνθρωπος», δεν είχαν την ικανότητα να κατανοήσουν τη διάσταση και το συμφραζόμενο των σφαλμάτων. Όπως εξηγούν οι ερευνητές, το Claude 3.5 Sonnet απέδωσε καλύτερα από τα δύο μοντέλα της OpenAI, αλλά ακόμα και οι περισσότερες απαντήσεις του ήταν λανθασμένες.
Καταληκτικά Σχόλια
Εν κατακλείδι, αν και αυτά τα LLMs έχουν σημειώσει ραγδαία πρόοδο τα τελευταία χρόνια, δεν είναι αρκετά ικανά στον τομέα του λογισμικού για να αντικαταστήσουν τους ανθρώπινους προγραμματιστές, παρά τις τάσεις πολλών CEOs να αντικαταστήσουν τους ανθρώπινους κωδικογράφους με ανώριμα AI μοντέλα.