Κατά τη διάρκεια μιας ζωντανής μετάδοσης την Τρίτη, ο CEO της OpenAI, Sam Altman, ανακοίνωσε την πρώτη σημαντική αναβάθμιση στην ικανότητα δημιουργίας εικόνας του ChatGPT μετά από πάνω από έναν χρόνο.
Πλέον, το ChatGPT μπορεί να χρησιμοποιεί το μοντέλο GPT-4o για να δημιουργεί και να επεξεργάζεται εικόνες και φωτογραφίες. Παρόλο που το GPT-4o υποστηρίζει το chatbot της OpenAI εδώ και καιρό, μέχρι τώρα το μοντέλο είχε τη δυνατότητα να επεξεργάζεται μόνο κείμενο και όχι εικόνες.
Διαθέσιμο για συνδρομητές του Pro και σύντομα για άλλους χρήστες
Ο Altman δήλωσε ότι η νέα δυνατότητα είναι διαθέσιμη αυτήν τη στιγμή για τους συνδρομητές του Pro πακέτου (200 δολάρια το μήνα) τόσο στο ChatGPT όσο και στο Sora, το προϊόν βίντεο δημιουργίας της OpenAI.
Η δυνατότητα θα διατεθεί σύντομα και στους χρήστες του ChatGPT Plus, καθώς και στους δωρεάν χρήστες και στους προγραμματιστές που χρησιμοποιούν την υπηρεσία API της εταιρείας.
Περισσότερη ακρίβεια και λεπτομέρεια στη δημιουργία εικόνας
Το GPT-4o μπορεί να δημιουργεί και να επεξεργάζεται εικόνες με μεγαλύτερη ακρίβεια από το προηγούμενο μοντέλο δημιουργίας εικόνας της OpenAI, το DALL-E 3.
Το GPT-4o μπορεί να επεξεργάζεται εικόνες που περιλαμβάνουν ανθρώπους, να τις μετατρέπει ή να συμπληρώνει λεπτομέρειες όπως το φόντο και τα αντικείμενα στο προσκήνιο. Οι εικόνες που δημιουργούνται με το GPT-4o θεωρούνται πιο ακριβείς και λεπτομερείς σε σχέση με τις προηγούμενες εκδόσεις.
Εκπαίδευση του GPT-4o με δημόσια και ιδιωτικά δεδομένα
Η OpenAI ανέφερε στην Wall Street Journal ότι το GPT-4o εκπαιδεύτηκε χρησιμοποιώντας δημόσια διαθέσιμα δεδομένα, καθώς και δεδομένα που προέρχονται από στρατηγικές συνεργασίες με μεγάλες εταιρείες όπως η Shutterstock.
Η εταιρεία τονίζει ότι η χρήση αυτών των δεδομένων γίνεται με σεβασμό προς τα δικαιώματα των καλλιτεχνών και έχει πολιτικές που αποτρέπουν την παραγωγή εικόνων που μιμούνται άμεσα το έργο ζωντανών καλλιτεχνών.
Η απάντηση στην αντιπαράθεση με άλλες εταιρείες AI
Η αναβάθμιση του ChatGPT έρχεται μετά την αντίστοιχη δυνατότητα δημιουργίας εικόνας που παρουσίασε η Google με το μοντέλο Gemini 2.0 Flash.
Παρά την εντυπωσιακή εμφάνιση της δυνατότητας εικόνας του Gemini 2.0 Flash, η οποία έγινε viral στα μέσα κοινωνικής δικτύωσης, η έλλειψη περιορισμών επέτρεψε τη δημιουργία προστατευμένων εικόνων και χαρακτήρων, γεγονός που προκάλεσε ανησυχία γύρω από τα δικαιώματα πνευματικής ιδιοκτησίας.