Cognition pārstāvis Skots Vu saka, ka mākslīgā intelekta kodēšanas aģentiem nevajadzētu aizstāt cilvēkus ↗
Cognition pārstāvis Skots Vu noraidīja ideju, ka Devin ir radīts, lai pilnībā aizstātu programmētājus. Nedaudz neveikla nostāja, ņemot vērā, ka uzņēmums arī apgalvo, ka Devin pats publicē ievērojamu daļu sava koda.
Viņa apgalvojums drīzāk ir “mākslīgā intelekta kodēšanas draugs” nekā “tavu darbu ir apēdis klēpjdatora goblins”. Tomēr spriedzi ir grūti nepamanīt – labāki aģenti, mazāk attaisnojumu uzpūstām inženieru komandām… vai vismaz tā skan arguments.
Šis mākslīgā intelekta jaunuzņēmums bez maksas tīrīs jūsu māju, lai apmācītu nākotnes robotus ↗
Shift piedāvā bezmaksas mājas uzkopšanu ar kādu ērtu un nedaudz satraucošu niansi: apkopēji valkā ar kameru aprīkotu “burvju cepuri”, lai uzņēmums varētu apkopot robotu apmācības datus.
Piedāvājums ir vienkāršs — jūs dabūsiet tīru dzīvokli, viņi — video ar mājas darbiem. Varbūt kārtīgs darījums.
"Shift" apgalvo, ka tas aizmiglo sensitīvas detaļas un anonimizē videoierakstus, taču plašāks jautājums joprojām ir kā zeķe zem dīvāna: cik daudz mājas privātuma cilvēki ir gatavi pārdot ērtības labad?
Anthropic izlaiž Claude Opus 4.8 ↗
Anthropic izlaida Claude Opus 4.8 ar uzlabojumiem kodēšanas, aģentūru darbplūsmu, spriešanas un profesionālā darba jomā. Galvenais ieguvums ir uzticamība — mazāk nepamatotu apgalvojumu, labāka rīku izmantošana un vairāk pašpārbaudes iespēju.
Claude Code nodrošina arī dinamiskas darbplūsmas, ļaujot modelim plānot, aktivizēt paralēlus apakšaģentus, pārbaudīt rezultātus un sniegt atskaites. Tas izklausās sausi, līdz saproti, ka tā būtībā ir projektu vadība maskētā mētelī.
Cenas joprojām ir sadalītas starp standarta un ātrajiem režīmiem, Anthropic vairāk koncentrējoties uz piepūles kontroli, lai lietotāji varētu izvēlēties starp ātrumu, kvalitāti un žetonu patēriņu.
Foxconn valdes priekšsēdētājs saka, ka ir milzīga pārliecība par izaugsmes impulsu, pateicoties mākslīgajam intelektam ↗
Foxconn priekšsēdētājs sacīja, ka mākslīgā intelekta pieprasījums maina uzņēmuma ierasto sezonālo ritmu. Vecais piegādātāju kritums gada vidū? Acīmredzot vairs neuzvedas normāli.
Iemesls ir mākoņgigantu gigantiskie mākslīgā intelekta izdevumi, ko Foxconn uzskata par savu tirgus iespēju. Tā ir mākslīgā intelekta uzplaukuma aparatūras puse, kas ir mazāk glancēta nekā tērzēšanas roboti, bet tieši tur naudas caurules dārd.
Foxconn jau ir nozīmīgs Nvidia serveru ražotājs, tāpēc tā optimisms būtībā ir temperatūras pārbaude mākslīgā intelekta infrastruktūras sacensībās.
Kopīga rokasgrāmata uzticamiem trešo pušu novērtējumiem ↗
OpenAI publicēja vadlīnijas par trešo pušu mākslīgā intelekta novērtējumiem, apgalvojot, ka testiem ir nepieciešama skaidrāka informācija par to, kas tika novērtēts, kā tas tika pārbaudīts un ko rezultāti var pierādīt.
Galvenais arguments ir pārsteidzoši praktisks: mākslīgā intelekta (MI) novērtējumi, kas veikti no pirmās paaudzes, nevar būt tikai minējumi, kas veidoti kā līderu saraksta formāta analīze. Vērtētājiem ir jāpaskaidro testējamā sistēma, norādījumi, drošības pasākumi, derīguma pārbaudes un apgalvojumu beigas.
Tas ir svarīgi, jo, modeļiem kļūstot arvien aģentīvākiem, virspusēji testi var likt sistēmām izskatīties drošākām vai spēcīgākām, nekā tās patiesībā ir. Maza papīru enerģija, lielas sekas.
Bieži uzdotie jautājumi
Vai mākslīgā intelekta kodēšanas aģenti, piemēram, Devins, ir paredzēti, lai aizstātu programmētājus?
Skots Vu raksturo mākslīgā intelekta kodēšanas aģentus kā kodēšanas partnerus, nevis pilnvērtīgus cilvēku programmētāju aizstājējus. Tomēr rakstā ir norādīts uz pretrunu: Devins tiek raksturots arī kā tāds, kas ir devis lielu daļu no paša Cognition koda. Praktiski secinājums ir tāds, ka šie rīki var samazināt daļu ikdienas inženierijas darba, vienlaikus joprojām paļaujoties uz cilvēku spriedumu, norādījumu un atbildības ziņā.
Kāpēc Shift piedāvā bezmaksas mājas uzkopšanu, izmantojot mākslīgā intelekta apmācības datus?
Shift piedāvā bezmaksas mājas uzkopšanu, jo tai ir nepieciešami fiziskās pasaules video dati par mājas darbiem, lai apmācītu nākotnes robotus. Apkopēji darba laikā valkā ar kameru aprīkotu “burvju cepuri”, radot videoierakstus, kas var palīdzēt mākslīgā intelekta sistēmām izprast mājsaimniecības uzdevumus. Apmaiņa ir skaidra: klienti iegūst tīru māju, savukārt uzņēmums iegūst datus no privātām dzīvojamām telpām.
Kā Shift nodrošina privātumu, apkopojot mājas tīrīšanas materiālus?
Rakstā teikts, ka Shift apgalvo, ka tas aizmiglo sensitīvas detaļas un anonimizē videoierakstus. Tas varētu mazināt dažus privātuma riskus, taču tas nenovērš plašākas bažas par ierakstīšanu cilvēku mājās. Lietotājiem galvenais jautājums ir, vai bezmaksas tīrīšanas ērtības ir šāda datu vākšanas līmeņa vērtas.
Kas jauns Claude Opus 4.8 versijā?
Claude Opus 4.8 tiek raksturots kā uzlabojums kodēšanā, aģentūru darbplūsmās, spriešanas procesos un profesionālajā darbā. Atjauninājums koncentrējas uz uzticamību, tostarp mazāk nepamatotu apgalvojumu, spēcīgāku rīku izmantošanu un lielāku pašpārbaudi. Claude Code iegūst arī dinamiskas darbplūsmas, kurās modelis var plānot, palaist paralēlus apakšaģentus, pārbaudīt rezultātus un ziņot par rezultātiem.
Kāpēc Foxconn optimismam par mākslīgā intelekta uzplaukumu ir nozīme?
Foxconn pārliecība ir svarīga, jo tā atspoguļo mākslīgā intelekta uzplaukuma aparatūras pusi. Uzņēmuma priekšsēdētājs sacīja, ka mākslīgā intelekta pieprasījums maina savu ierasto sezonālo modeli, un mākoņgigantu infrastruktūras izdevumi rada ievērojamas tirgus iespējas. Tā kā Foxconn jau ir nozīmīgs Nvidia serveru ražotājs, tā komentāri kalpo kā spēcīgs signāls par pieprasījumu pēc mākslīgā intelekta infrastruktūras.
Ko OpenAI apgalvo, ka trešo pušu mākslīgā intelekta novērtējumi ir uzticami?
OpenAI apgalvo, ka mākslīgā intelekta novērtējumiem ir nepieciešami skaidrāki skaidrojumi par to, kāda sistēma tika testēta, kā tā tika testēta un ko rezultāti patiesi parāda. Tas ietver informāciju par norādījumiem, drošības pasākumiem, derīguma pārbaudēm un jebkādu apgalvojumu ierobežojumiem. Šis punkts ir īpaši svarīgs aģentūriskākiem modeļiem, kur virspusēji testi var radīt iespaidu, ka sistēmas ir drošākas vai spējīgākas, nekā tās patiesībā ir.