Robotik şirketi 1X (eski adıyla Halodi Robotics), tekerlekli servis robotu Eve’in bir odayı temizlerken doğal dilde konuşulan uzun bir görev dizisini nasıl gerçekleştirdiğini gösterdi. Şirket, insanlarla birlikte çalışacak evrensel robotlar geliştirmek amacıyla 2014 yılında kuruldu. 2022’de 1X, “robot bilimi ile yapay zekayı birleştirmek ve somutlaştırılmış öğrenmenin temelini atmak için” OpenAI ile ortaklık kurdu.
1X şu anda robotların “hem doğal dili hem de fiziksel alanı anlayabilmeleri ve iş yerinizde ve dünyanızda gerçek dünyadaki görevleri yerine getirebilmeleri” için işyerinde robotları eğitmeye odaklanıyor . 1X, doğal dili kullanan bir robot kontrol arayüzü geliştirdi. Bir operatör, sesli komut dizilerini kullanarak birden fazla insansı robotu aynı anda kontrol edebiliyor.
Mart ayında şirket, tek bir davranışsal yapay zeka modeline, satın alınan ürünleri bir çantadan almak, daha sonra bunları tasnif etmek ve uygun depolama alanlarına yerleştirmek gibi çok sayıda görevi ekleyebilecek otonom bir model geliştirdiğini bildirmişti. Aynı zamanda diğer görevlerin performans kalitesinde de bir azalma oldu ve bu durum parametre sayısının arttırılması ve eğitime daha fazla zaman harcanmasıyla aşıldı.
Şirket bir blog yazısında “Robotların bu üst düzey dil arayüzü aracılığıyla kontrol edilmesi, veri toplama konusunda yeni bir kullanıcı deneyimi sunuyor ” diyor. “ Operatör, tek bir robotu kontrol etmek için VR kullanmak yerine, üst düzey bir dil kullanarak birden fazla robotu kontrol edebiliyor. Üst düzey komutların sıklıkla verilmesi gerekmediği için operatörler robotları uzaktan bile kontrol edebiliyor.”
Şirkete göre, doğal dilli ses arayüzü, operatörlerin “birden fazla küçük modeldeki kısa vadeli yetenekleri daha uzun modellere bağlamasına” olanak tanıyor . Bu tek görevli modeller daha sonra, geliştirme tek bir modele doğru ilerledikçe, yapay zeka kullanılarak üst düzey eylemlerin otomatikleştirilmesi nihai hedefiyle birleştirilebilir.
1X, videodaki Eve robotlarının uzaktan kontrol edilmediğini, tüm eylemlerinin bir sinir ağı tarafından kontrol edildiğini iddia ediyor. Video hiçbir bilgisayar grafiği, “düzenleme, video hızlandırma veya komut dosyasıyla oynatma ” içermiyor .
Şirket gelecekte GPT-4o, VILA ve Gemini Vision gibi büyük dil modellerini kontrol sistemine entegre etmeyi planlıyor.