
Dropbox получил существенное улучшение поисковых возможностей во второй раз за последние два месяца. Компания заявляет, что теперь может искать текст внутри PDF и даже файлов изображений, таких как JPG и PNG…
Поиск в Dropbox стал намного мощнее в прошлом месяце, когда компания внедрила новый движок на основе машинного обучения. Компания сообщает, что впервые внедряет возможности оптического распознавания символов (OCR) для поиска.
Форматы изображений (например, JPEG, PNG или GIF) обычно не индексируются, поскольку они не содержат текстового контента, тогда как форматы текстовых документов (например, TXT, DOCX или HTML) обычно индексируются. Файлы PDF находятся между этими категориями, поскольку они могут содержать смесь текстового и графического контента. Автоматическое распознавание текста на изображениях позволяет интеллектуально различать все эти документы для категоризации содержащихся в них данных.
Таким образом, теперь, когда пользователь ищет английский текст, который появляется в одном из этих файлов, он будет отображаться в результатах поиска.
The Verge отмечает, что эта функция, однако, ограничена более дорогими тарифными планами.
Новая функция работает с английским текстом и уже доступна пользователям Dropbox Business Advanced и Enterprise, а для подписчиков Dropbox Professional она должна появиться в ближайшие месяцы.
Используется та же технология, которая впервые была внедрена в мобильном приложении компании в прошлом году. Если вы использовали приложение для фотографирования документа, оно одновременно выполняло OCR, извлекая текст. Но это работало только с небольшой частью ваших документов.
Внедряя возможности OCR непосредственно в поисковый механизм, Dropbox теперь может искать текст во всех ваших файлах PDF и изображений, независимо от того, как они были отсканированы или сфотографированы.
Компания заявляет, что эта новая функция поиска Dropbox значительно облегчит жизнь пользователям.
Потенциальная выгода от автоматического распознавания текста на изображениях (включая PDF-файлы с изображениями) огромна. Более 20 миллиардов файлов изображений и PDF-файлов были сохранены пользователями в Dropbox. Из этих файлов 10-20% составляют фотографии документов – например, квитанций и изображений с досок – в отличие от самих документов. Теперь они являются кандидатами для автоматического распознавания текста на изображениях. Аналогично, 25% этих PDF-файлов являются сканами документов, которые также являются кандидатами для автоматического распознавания текста.
Компания заявляет, что из-за ресурсоемкости процесса OCR в поиске Dropbox ей пришлось ввести одно важное ограничение.
Некоторые PDF-документы имеют много страниц, и обработка этих файлов, соответственно, более затратна. К счастью, для длинных документов мы можем воспользоваться тем фактом, что даже индексация нескольких страниц, вероятно, сделает документ намного доступнее для поиска. Поэтому мы изучили распределение количества страниц в выборке PDF-файлов, чтобы определить, сколько страниц мы будем индексировать максимум на файл. Оказалось, что половина PDF-файлов имеет только 1 страницу, а примерно у 90% – 10 страниц или меньше. Поэтому мы установили лимит в 10 страниц – первые 10 в каждом документе. Это означает, что мы индексируем почти 90% документов полностью, а для остальных документов мы индексируем достаточно страниц, чтобы сделать их доступными для поиска.
Мой коллега из 9to5Mac Брэдли Чемберс недавно объяснил три причины, по которым он перешел с Dropbox на iCloud Drive и больше не возвращался. Лично для меня, однако, Dropbox остается моим основным облачным хранилищем, главным образом потому, что я считаю, что он синхронизируется намного быстрее, чем любые из множества альтернатив, которые я пробовал.
Фото: Shutterstock
Посетите 9to5Google на YouTube для получения других новостей: