Το GPT-5.2 ξεπερνά τη βασική γραμμή του ειδικού διδακτορικού με 92% βαθμολογία επιστήμης

GPT-5.2 σκόραρε 92% σε ένα επιστημονικό σημείο αναφοράς “Google-Proof”, ξεπερνώντας σημαντικά το βασικό επίπεδο των ειδικών 70%. Το προηγμένο μοντέλο πέτυχε επίσης επιδόσεις με μετάλλια σε μεγάλους διεθνείς διαγωνισμούς, επιδεικνύοντας τις εξελισσόμενες ικανότητές του στην επιστημονική λογική.

Οι επιστήμονες χρησιμοποιούν εκτενώς αυτά τα συστήματα για εργασίες όπως αναζητήσεις βιβλιογραφίας σε διάφορους κλάδους και γλώσσες, καθώς και για πλοήγηση σε πολύπλοκες μαθηματικές αποδείξεις. Αυτή η εξέλιξη συχνά μειώνει την εργασία που συνήθως διαρκεί μέρες ή εβδομάδες σε λίγες μόνο ώρες. Το χαρτί, Πρώιμα επιστημονικά πειράματα επιτάχυνσης με GPT-5που δημοσιεύτηκε τον Νοέμβριο του 2025, παρέχει αρχικά στοιχεία ότι το GPT-5 μπορεί να επιταχύνει σημαντικά τις επιστημονικές ροές εργασιών.

Για περαιτέρω μέτρηση και πρόβλεψη της ικανότητας των μοντέλων τεχνητής νοημοσύνης να επιταχύνουν την επιστημονική έρευνα, οι προγραμματιστές εισήγαγαν το FrontierScience, ένα νέο σημείο αναφοράς που έχει σχεδιαστεί για την αξιολόγηση των επιστημονικών ικανοτήτων σε επίπεδο ειδικών. Το σημείο αναφοράς περιέχει ερωτήσεις γραμμένες και επαληθευμένες από ειδικούς στη φυσική, τη χημεία και τη βιολογία, εστιάζοντας στην πρωτοτυπία και τη δυσκολία.

Το FrontierScience διαθέτει δύο ξεχωριστά κομμάτια:

Ολυμπιάδα: Μετρά τις επιστημονικές συλλογιστικές ικανότητες σε στυλ διεθνών διαγωνισμών Ολυμπιάδας.
Ερευνα: Αξιολογεί τις πραγματικές δυνατότητες επιστημονικής έρευνας.

Σε αρχικές αξιολογήσεις, το GPT-5.2 αναδείχθηκε ως το μοντέλο με τις κορυφαίες επιδόσεις τόσο στο FrontierScience-Olympiad, με 77% και στο Research, με 25%. Αυτή η απόδοση το τοποθετεί μπροστά από άλλα μοντέλα αιχμής, συμπεριλαμβανομένων των Claude Opus 4.5 και Gemini 3 Pro. Τα αποτελέσματα υποδεικνύουν ότι τα τρέχοντα μοντέλα μπορούν να υποστηρίξουν δομημένες συλλογιστικές πτυχές της έρευνας, αν και απομένει σημαντική δουλειά για την ενίσχυση των δυνατοτήτων ανοιχτής σκέψης τους.

Το FrontierScience περιλαμβάνει πάνω από 700 ερωτήσεις κειμένου, με 160 σε χρυσό σύνολο, που εκτείνονται σε υποπεδία στη φυσική, τη χημεία και τη βιολογία. Το FrontierScience-Olympiad περιλαμβάνει 100 ερωτήσεις που έχουν σχεδιαστεί από κοινού από 42 διεθνείς Ολυμπιονίκες και προπονητές εθνικών ομάδων. Το FrontierScience-Research περιλαμβάνει 60 πρωτότυπες ερευνητικές επιμέρους εργασίες που αναπτύχθηκαν από 45 επιστήμονες διδάκτορες, συμπεριλαμβανομένων υποψηφίων διδακτόρων, καθηγητών και μεταδιδακτορικών ερευνητών.

Για το σύνολο της Ολυμπιάδας, η βαθμολόγηση πραγματοποιείται μέσω επαλήθευσης σύντομων απαντήσεων. Για το ερευνητικό κομμάτι, μια αρχιτεκτονική βασισμένη σε ρουμπρίκες με σύστημα βαθμολόγησης 10 σημείων αξιολογεί εργασίες ανοιχτού τύπου. Αυτή η ρουμπρίκα αξιολογεί τόσο την τελική απάντηση όσο και τα ενδιάμεσα βήματα συλλογισμού. Ένας βαθμολογητής που βασίζεται σε μοντέλο, το GPT-5, αξιολογεί τις απαντήσεις σε σχέση με αυτά τα κριτήρια. Η δημιουργία κάθε εργασίας περιελάμβανε την επιλογή έναντι εσωτερικών μοντέλων, τα οποία μπορεί να μεροληπτούν τις αξιολογήσεις έναντι συγκεκριμένων μοντέλων.

Τα βασικά αποτελέσματα απόδοσης περιλαμβάνουν:

Ακρίβεια FrontierScience-Olympiad:
- GPT-5,2: 77,1%
- Gemini 3 Pro: 76,1%
- Claude Opus 4,5: 71,4%
Ακρίβεια FrontierScience-Research:
- GPT-5,2: 25,2%
- Claude Opus 4,5: 17,5%
- Grok 4: 15,9%

Μεγαλύτεροι χρόνοι επεξεργασίας ή υψηλότερες προσπάθειες συλλογισμού, συσχετίστηκαν με βελτιωμένη ακρίβεια τόσο για το GPT-5.2 όσο και για το OpenAI o3. Για παράδειγμα, η ακρίβεια του GPT-5.2 στο FrontierScience-Olympiad αυξήθηκε από 67,5% στην προσπάθεια λογικής «Χαμηλή» σε 77,1% στην προσπάθεια «XHigh». Ομοίως, στο FrontierScience-Research, η ακρίβεια του GPT-5.2 αυξήθηκε από 18,2% στο “Χαμηλό” σε 25,2% στο “XHigh”.

Το FrontierScience επί του παρόντος εστιάζει σε περιορισμένες δηλώσεις προβλημάτων και δεν αξιολογεί τη δημιουργία νέων υποθέσεων ή αλληλεπιδράσεων με πολυτροπικά δεδομένα. Οι προγραμματιστές σχεδιάζουν να επαναλάβουν το σημείο αναφοράς, επεκτείνοντάς το σε νέους τομείς και ενσωματώνοντας περισσότερες πραγματικές αξιολογήσεις καθώς βελτιώνονται τα μοντέλα.

Πίστωση επιλεγμένης εικόνας

VIA: DataConomy.com

What's Hot

«Σοκαριστικές αποκαλύψεις: Η Ρωσία σκοπεύει να χτίσει πυρηνικό σταθμό στη Σελήνη πριν το 2036!»

Το GPT-5.2 ξεπερνά τη βασική γραμμή του ειδικού διδακτορικού με 92% βαθμολογία επιστήμης

Ανακαλύψτε το iOS 26.3: Εντυπωσιακή Third-Party Proximity Pairing Έρχεται στην Ευρώπη!

«Σοκαριστικές αποκαλύψεις: Η Ρωσία σκοπεύει να χτίσει πυρηνικό σταθμό στη Σελήνη πριν το 2036!»

Ανακαλύψτε το iOS 26.3: Εντυπωσιακή Third-Party Proximity Pairing Έρχεται στην Ευρώπη!

Google και Samsung το 2025: Μια καθοριστική χρονιά για τους μεγαλύτερους παίκτες του Android

Οδηγός για το Πρόγραμμα «Ψηφιακές Συναλλαγές Β’» (2025) – Όσα πρέπει να γνωρίζουμε

Ο διαλογισμός έχει επικίνδυνες παρενέργειες. Τι λένε οι επιστήμονες;

Αλλάζω Σύστημα Θέρμανσης και Θερμοσίφωνα: Πλήρης Οδηγός για 100.000 Νέους Δικαιούχους

«Σοκαριστικές αποκαλύψεις: Η Ρωσία σκοπεύει να χτίσει πυρηνικό σταθμό στη Σελήνη πριν το 2036!»