
Впечатляющий видео ИИ от OpenAI, Sora, произвел фурор в этом году, но компания по-прежнему не признает, использовались ли видео с YouTube для обучения модели ИИ.
В интервью на Bloomberg Technology Summit операционный директор OpenAI Брэд Лайткэп рассказал о потенциальных бизнес-приложениях ИИ-технологий. Неудивительно, что Sora является одним из таких потенциальных сценариев использования. Однако, когда его спросили, использовались ли видео с YouTube для обучения Sora от OpenAI, Лайткэп отказался дать прямой ответ.
Когда его прямо спросили, чтобы «раз и навсегда прояснить», использовался ли YouTube для обучения Sora, Лайткэп сказал:
Да, я имею в виду, посмотрите, разговор о данных действительно важен.
Мы, очевидно, должны знать, откуда берутся эти данные. Мы как раз на этой неделе опубликовали статью на эту точную тему, которая, по сути, заключается в том, что должна быть система идентификации контента для ИИ, которая позволяет авторам, когда они создают что-то, понимать, куда оно идет, кто на нем обучается, иметь возможность участвовать или не участвовать в обучении, иметь возможность участвовать или не участвовать в использовании. Также, с другой стороны, иметь возможность активно разрешать своему контенту быть включенным в модель или быть доступным для модели, потому что на другом конце этого может быть эта другая экономическая возможность. И это то, что мы тоже исследуем: как вы на самом деле создаете совершенно другой социальный договор с Интернетом, с авторами, с издателями, где, когда эти модели уходят в мир и делают полезные вещи, создают ценность, в той мере, в какой они способны ссылаться на контент из Интернета и включать его, должны быть какие-то способы, чтобы люди могли извлечь из этого выгоду.
Так что, да, мы рассматриваем эту проблему, она очень сложная. У нас пока нет всех ответов.
Это впечатляющий не-ответ, поскольку YouTube ни разу не упоминался во всем ответе.
OpenAI действительно опубликовала на этой неделе пост о «понимании источника того, что мы видим и слышим онлайн». В посте снова ничего не упоминается о YouTube, вместо этого обсуждается, как OpenAI работает над созданием стандарта подлинности контента, а также над разработкой новых способов идентификации контента, созданного инструментами OpenAI.
Ранее в этом году сообщалось, что OpenAI использовала «более миллиона» часов контента с YouTube, в нарушение правил платформы, для обучения GPT-4, хотя Google сделал то же самое для Gemini, согласно отчету.
OpenAI заявляет, что Sora будет доступна позднее в этом году.
Полное интервью можно посмотреть ниже. Мы указали временную метку для вопроса о YouTube, за которым следует дерзкий ответ интервьюера: «так что ответа по YouTube пока нет».