Google открывает исходный код библиотеки дифференциальной приватности, которая используется в некоторых ключевых продуктах

Машинное обучение по своей сути требует больших объемов данных для работы и выявления закономерностей. В последние годы наблюдается тенденция к обеспечению конфиденциальности используемой информации. Сегодня Google объявил об открытии исходного кода библиотеки дифференциальной приватности, которую используют собственные продукты компании.

Дифференциально-приватный анализ данных — это принципиальный подход, который позволяет организациям извлекать пользу из большинства своих данных, одновременно гарантируя, что эти результаты не позволят отличить или повторно идентифицировать данные какого-либо отдельного человека.

По словам компании, эта библиотека дифференциальной приватности «помогает обеспечивать работу некоторых ключевых продуктов Google». Она позволяет разработчикам и организациям реализовывать функции, которые иначе было бы «сложно реализовать с нуля». Google особенно сосредоточился на простоте использования и развертывания:

  • Статистические функции: В этой версии поддерживаются наиболее распространенные операции в области науки о данных. Разработчики могут вычислять количество, суммы, средние значения, медианы и перцентили с помощью нашей библиотеки.
  • Строгое тестирование: Правильная реализация дифференциальной приватности — сложная задача. Помимо обширного набора тестов, мы включили расширяемую библиотеку «Модель проверки стохастической дифференциальной приватности» для предотвращения ошибок.
  • Готовность к использованию: Реальная польза от выпуска с открытым исходным кодом заключается в ответе на вопрос: «Могу ли я это использовать?» Именно поэтому мы включили расширение для PostgreSQL вместе с общими примерами для начала работы. Мы подробно описали наш подход в техническом документе, который мы выпустили сегодня.
  • Модульность: Мы разработали библиотеку так, чтобы ее можно было расширять, включая другие функциональные возможности, такие как дополнительные механизмы, функции агрегирования или управление бюджетом приватности.

Одной из служб Google, использующих дифференциальную приватность, является Карты, учитывая большое количество краудсорсинговых пользовательских данных. Это включает функцию «популярное время», которая указывает, является ли место заведением, и «популярные блюда». Ее также используют MVNO Google Fi и Gboard.

Реклама — прокрутите для просмотра большего количества контента

В марте Google также внедрил методы дифференциальной приватности для сторонних разработчиков машинного обучения с использованием TensorFlow Privacy и Federated. Компания инвестирует в новые технологии конфиденциальности и стремится к их более широкому внедрению.

Мы рады сделать эту библиотеку широко доступной и надеемся, что разработчики рассмотрят возможность ее использования при построении своих комплексных стратегий конфиденциальности данных. От медицины до правительства, бизнеса и за их пределами — мы надеемся, что эти инструменты с открытым исходным кодом помогут получить ценную информацию, которая принесет пользу всем.