Η Anthropic εντείνει τον ανταγωνισμό στον τομέα της τεχνητής νοημοσύνης με την κυκλοφορία του Claude Opus 4.5, ενός νέου μοντέλου που εστιάζει σε εφαρμογές που αφορούν τον προγραμματισμό, τους agents και τη διαχείριση υπολογιστικών συστημάτων. Η εταιρεία διατείνεται ότι το νέο αυτό εργαλείο είναι το καλύτερο εργαλείο προγραμματισμού παγκοσμίως, σύμφωνα με τα αποτελέσματα στον δείκτη αξιολόγησης SWE-bench Verified — ένα benchmark που συγκαταλέγεται μεταξύ των πιο απαιτητικών και κοντινών σε πραγματικές συνθήκες του τομέα του λογισμικού.
Οπως υποστηρίζει η Anthropic, το Claude Opus 4.5 πέτυχε επίδοση 80,9% στο SWE-bench Verified, ξεπερνώντας αντιπάλους όπως το Gemini 3.0 και το GPT-5.1-Codex-Max. Για να προσθέσει αξιοπιστία στα αποτελέσματά της, η εταιρεία αναφέρει ότι έχει αναπτύξει ένα πολύ απαιτητικό take-home τεστ, το οποίο χρησιμοποιείται για την αξιολόγηση υποψηφίων μηχανικών κατά τη διάρκεια των προσλήψεων. Το Opus 4.5 φέρεται να έχει σημειώσει την υψηλότερη βαθμολογία που έχει καταγραφεί ποτέ από ανθρώπινο υποψήφιο σε αυτό το τεστ εντός δύο ωρών.
Αν και το κύριο βάρος δίδεται στον προγραμματισμό, η Anthropic τονίζει ότι το μοντέλο υπερέχει και σε σύνθετες αναλυτικές διαδικασίες, όπως είναι η βαθιά έρευνα, η επεξεργασία παρουσιάσεων και η διαχείριση spreadsheets. Αυτό υποδηλώνει ότι το Claude Opus 4.5 δεν προορίζεται αποκλειστικά για προγραμματιστές, αλλά θεσπίζεται και ως πολυδιάστατο εργαλείο παραγωγικότητας, σε μια εποχή που η τεχνητή νοημοσύνη ενσωματώνεται ολοένα και περισσότερο σε επιχειρηματικές διαδικασίες.
Το Claude Opus 4.5 είναι διαθέσιμο ήδη μέσω των εφαρμογών Claude, μέσω API και σε όλες τις μεγάλες cloud πλατφόρμες, συμπεριλαμβανομένων των Azure, GCP και AWS. Αξιοσημείωτο είναι ότι η Anthropic ανακοίνωσε μείωση τιμών στο API: η νέα χρέωση για το μοντέλο είναι 5 δολάρια για εισερχόμενα tokens και 25 δολάρια για εξερχόμενα tokens ανά εκατομμύριο. Με αυτόν τον τιμοκατάλογο, η εταιρεία επιδιώκει να καταστήσει τα μοντέλα της πιο προσιτά σε ένα ευρύτερο κοινό χρηστών και επιχειρήσεων.
Πέρα από την ακατέργαστη απόδοση, το Opus 4.5 προσφέρει και σημαντικά καλύτερη αποδοτικότητα. Η Anthropic δηλώνει ότι το νέο μοντέλο χρησιμοποιεί πολύ λιγότερα tokens για να επιτύχει το ίδιο ή και ανώτερο επίπεδο απόδοσης σε σύγκριση με προηγούμενες εκδόσεις, όπως το Opus 4.1. Αυτή η διαφορά δεν αναφέρεται μόνο στην οικονομία πόρων, αλλά και στον χρόνο: μειωμένες επαναλήψεις, λιγότερη περιττή διερεύνηση εναλλακτικών λύσεων και πιο άμεσες συλλογιστικές διεργασίες. Για παράδειγμα, στην κατηγορία Medium reasoning effort, το Opus 4.5 μπορεί να ξεπεράσει την επίδοση του Sonnet 4.5 στο SWE-bench Verified χρησιμοποιώντας 76% λιγότερα εξερχόμενα tokens. Στην κατηγορία High reasoning effort, το μοντέλο έχει ανώτερη απόδοση κατά 4,3% σε σχέση με το Sonnet 4.5 με 48% λιγότερα tokens.
Εν αναφορά στην πρόσφατη αναπτυξιακή φιλοσοφία της OpenAI, η Anthropic εισάγει πλέον την παράμετρο reasoning effort στο Claude API. Οι developers έχουν τη δυνατότητα να καθορίζουν το βάθος σκέψης του μοντέλου — με μια ζυγαριά ανάμεσα στην ταχύτητα και την βάθος ανάλυσης, ανάλογα με την κάθε εργασία. Μέσω αυτής της ρύθμισης, οι εφαρμογές μπορούν να επιλέγουν ελαφριά συλλογιστική για ρουτίνες ή πιο εντατική ανάλυση για πολύπλοκες εργασίες λογικής και προγραμματισμού.
Η Anthropic δίνει επίσης ιδιαίτερη έμφαση στο Claude Code, το οποίο σύμφωνα με την εταιρεία αποκτά μεγαλύτερη ικανότητα οργάνωσης και εκτέλεσης σύνθετων ενεργειών. Πλέον, το σύστημα έχει τη δυνατότητα να θέτει διευκρινιστικές ερωτήσεις στην αρχή μιας εργασίας, να σχεδιάζει ένα πλήρως επεξεργάσιμο αρχείο plan.md και στη συνέχεια να προχωρά στην υλοποίηση, με ελάχιστη ανάγκη για ανθρώπινη καθοδήγηση. Αυτή η προσέγγιση διαφέρει σημαντικά από την παραδοσιακή μέθοδο, όπου η AI επιχειρούσε απλώς να γράψει κώδικα άμεσα, συχνά χωρίς ξεκάθαρη στρατηγική.










