среда, 29 февраля 2012 г.

Схема знаний Google может изменить поиск навсегда


Амит Сингал – старший вице-президент компании Google. С 1996 года занимается различными разработками в сфере информационного поиска. Его исследования посвящены качеству и методам поиска. Амит полностью переработал алгоритмы ранжирования Google.

У Google есть одна тайная слабость: он вас не понимает. Если вы спросите его о «10 самых глубоких озерах в США», вы получите очень хороший результат, основанный на ключевых словах, содержащихся в этой фразе, и сайтах, обладающих релевантностью к этим словам и даже группам слов. Но, по словам старшего вице-президента Google Амита Сингала, Google не понимает вопроса. «Мы скрещиваем пальцы и надеемся, что кто-то в сети уже писал про то, что мы ищем».

В будущем, однако, поиск Google может сильно измениться. В интервью Сингал, который работает в области разработки поисковых систем уже 20 лет, рассказал о подходе к поиску, который выходит за пределы совпадений букв в словах в сферу понятий, символов и взаимоотношений между ними. Другими словами, будущая поисковая система Google не только сможет понять ваш вопрос про озера, но будет знать, что озеро – это водный объект, и расскажет вам о глубине, площади поверхности, температуре и даже солености каждого озера.

Но чтобы понять, куда движется Google, надо знать, откуда он пришел.

Поиск, как объяснил Сингал, начался как выявление вхождений искомых ключевых слов в документах, и он не сильно изменился в течение второй половины двадцатого века, то есть до появления Сети. Тут у поиска появились союзники: ссылки. Google первым стал использовать ссылки в качестве «заменителей рекомендаций». В эти далекие дни система основывала свои результаты на контентных ссылках и их весе. Со временем Google добавил еще множество характеристик контента, ключевых слов и пользователей, чтобы сделать свой поиск еще лучше.

В конце концов, Google перешел от изучения ключевых слов к значению. Когда слова «New» и «York» стоят вместе, они значат не то, что каждое из этих слов по отдельности. Google разработал статистическую эвристику, которая смогла распознать эти два слова как отдельную фразу. Однако система пока не понимает, что New York – это город с населением и определенным географическим положением. Но последовательности слов и их смысл – это еще не все, что нужно Google и Сингалу, который недавно был избран в Национальную академию инженерных наук.

Впереди большие перемены Сейчас Google хочет трансформировать слова на страницах в понятия и относящиеся к ним характеристики. Это именно то, что делает человеческий мозг, но для компьютеров это называется искусственным интеллектом.

Это сложная задача, но работа уже началась. Google «формирует важнейшее внутреннее осмысление того, что такое понятие, какие понятия существуют в мире и что следует знать об этих понятиях», – говорит Сингал.

В 2010 году Google приобрел Freebase, коллективную базу знаний, состоящую из примерно 12 миллионов основных понятий. Двенадцать миллионов – это хорошее начало, но Google, по словам Сингала, инвестировал существенные средства в «создание огромного графа знаний взаимосвязанных понятий и их характеристик».

Переход от индекса на основе последовательности букв к такой схеме знаний – это фундаментальный сдвиг, который резко увеличит возможности и сложность поиска. Сингал объяснил, что словесный индекс в целом то же самое, что индекс на обороте книги, а «база знаний огромна по сравнению со словесным индексом, а также значительно более совершенна».

В настоящий момент, как сказал Сингал, Google строит инфраструктуру для более сложного алгоритма поиска – поиска завтрашнего дня, – и эта задача, разумеется, требует огромных вычислительных мощностей. Все эти компьютеры помогают поисковому гиганту создать схему знаний, которая сейчас включает около 200 миллионов понятий». Что же можно сделать с такой схемой (или базой) знаний?

Все развивается постепенно. Хотя признаки искусственного интеллекта начинают проявляться в результатах поиска Google, большинство людей пока этого, наверно, даже не заметили.

Текущая работа схемы знаний Наберите, к примеру, «Моне» в поиске Google и, наряду со стандартными результатами, вы увидите небольшую область внизу: «Поиск произведений Клода Моне». Там будут миниатюры пяти-шести самых известных работ художника. Поиск Google начинает понимать, что Моне – художник, и что самая важная информация о художнике – это его картины.

На мои слова, что это, вроде бы, не сильно отличается от традиционных результатов, расположенных выше, Сингал ответил, что судить о возможностях схемы знаний на данном этапе – это то же, что судить о художнике по его картинам, которые он нарисовал в возрасте полутора-двух лет.

Можно заметить некоторую иронию в том, что Google ссылается на обстоятельство, которое служило основным объектом критики со стороны его главного соперника в сфере поиска – Bing. Microsoft запустила серию язвительных рекламных роликов, которые, хотя и не называли прямо Google, но показывали результаты поиска, которые большинство людей находило комическими из-за недостаточного соответствия контекста и смысла. Было понятно, что критика и шутки относились к Google, и вот теперь Google делает что-то с качеством своих результатов.

Когда я спросил Сингала, слышал ли он про критику Bing и понял ли, что Bing позиционирует свои результаты как сосредоточенные больше на полезных ответах, чем на ссылках, Сингал уклонился от прямого ответа, сказав, что он не может комментировать действия Bing.

Также стоит отметить, что миллионы людей теперь верят, что благодаря iPhone 4S и Siri, «умному помощнику», у них уже есть искусственный поисковый интеллект. Он использует информацию, которую может получить с вашего телефона и через интернет, чтобы ответить на вопросы, заданные разговорным языком. На что бы ни была способна схема знаний Google, в плане искусственного интеллекта ей точно придется обойти Siri.

Точно указать, как далеко может зайти «поиск будущего», Сингал в настоящий момент затрудняется. «Мы строим своего рода адронный коллайдер. Какие частицы он породит, в настоящий момент предсказать невозможно», – говорит он.

С другой стороны, Сингал признает, что его мечта – построить компьютер из «Стар Трека». Этому компьютеру из научно-фантастического фильма, вышедшего на экраны в 1960-х, можно было задать практически любой вопрос и получить осмысленный ответ. «Такая внутренняя инфраструктура положительно влияет на все аспекты обработки данных или искусственного интеллекта», – говорит Сингал, имея в виду обширную схему знаний, которую сейчас создает Google. «Запросы и вопросы обрабатываются намного лучше, и мы продвигаемся еще на шаг ближе».

За рамками поиска Кстати о «Стар Треке»: есть еще одна область, которой схема знаний Google может принести немалую пользу – робототехника. Сингал, конечно, не эксперт в этой области, но он отметил, что робототехника, располагающаяся на пересечении механической инженерии и обработки данных, испытывает трудности, когда дело доходит до языковых возможностей. «Я думаю, мы сейчас закладываем основу для использования языка в будущем взаимодействии робота и человека», – говорит он.

Захватывающая перспектива. Будучи большим поклонником робототехники, я продолжил воображать картину будущего, с которой Сингал не стал спорить: роботы будут иметь доступ к поисковой базе понятий Google, и смогут понять, что «малыш», о котором они заботятся (Что? Вы позволите роботу присматривать за ребенком?), это маленькое, хрупкое и вечно голодное существо. Робот, возможно, даже будет знать, как кормить младенца, так как ему будет известно, что понятие «вечно голодный» связано с понятием «младенец», которое также имеет атрибут «кормить только жидкой пищей».

Пока мы беседовали, я осознал, что, хотя 200 миллионов понятий – это много, мир знаний все равно содержит гораздо больше. Сколько понятий понадобится Google, чтобы знать ответы на все вопросы? Сингал рассмеялся в ответ на это и вместо точного количества выкрутился: «Удивительное качество человеческого разума состоит в том, что он способен создавать вещи и решения, которые на первый взгляд невозможны, и самое большее, что я могу сказать в данный момент – человеческий разум будет продолжать создавать знания, и мы будем продолжать строить нашу схему как инструмент, помогающий создавать еще больше знаний. Это бесконечный процесс созидания».

Комментариев нет:

Отправить комментарий