РАЗДЕЛЫ

Архив

Nigma.Ru делает предложение оптимизаторам

Вебпланета

≡ | архивная статья | 20.04.2005 15:02

Поисковая система Nigma.Ru выступает с инициативой: поисковым оптимизаторам предлагается бесплатно оптимизировать результаты поиска, и помочь в обучении искусственной нейронной сети.

Посмотреть статью полностью

21.04.2005 14:41 | пишет Гость | ссылка

У Брина тоже когда-то не было таких денег, и где он сейчас? :)

20.04.2005 15:30 | пишет ppp | ссылка

Это значит - они хотят, чтобы оптимизаторы сделали ту работу, которую должны делать программеры самого ресурса (отлаживать релевантность выборки)? Хитро :))

Гуру поиска....хмм...."гуру маркетинга" уже, конечно, приелось и не терзает слух, но такими темпами мы скоро дойдем до того, что в школьных учебниках литературы будут писать что-то типа: "А в 1825 году гуру русской литературы 19 века Александр Сергеевич Пушкин........."

20.04.2005 15:49 | пишет Ad | ссылка

Инициатива не нова. Во всех крупных поисковиках есть штат сотрудников, которые только тем и занимаются, что оценивают результаты поиска и корректируют выдачу. Только им приходится платить за это зп, а тут - бесплатно :)

20.04.2005 16:40 | пишет лавренко | ссылка

ppp, ad -- мы проект некоммерческий, найм штата позволить себе не можем, а вот раз есть ребята, которые все равно уже это делают -- почему бы не воспользоваться их помощью? вроде взаимовыгодно должно быть...

20.04.2005 17:07 | пишет ppp | ссылка

Они, кхм... как бы это сказать...немножно не это делают, не это...оптимизировать результаты поиска и оптимизировать САЙТ под поисковую систему - несколько разные вещи

Вы, вроде, как профессионал, должны такие тонкости понимать :)

20.04.2005 17:23 | пишет лавренко | ссылка

ppp, если участников будет много, то и сайтов будет много, а кроме того, на них будет возложена общественная нагрузка :-) -- в новости я про это мягко намекнул :-)

20.04.2005 17:39 | пишет БУМ | ссылка

Откройти статистику, чтобы понять взаимовыгодно это или нет. Не думаю, что у вас сейчас больше 500 хостов в сутки (не считая дней анонсов).. А это значит для оптимизаторов это ничего не даст, а хорошие оптимизаторы забесплатно тратить свое время не будут. Конечно, кого-то сможете привлечь, но это будут начинающие неопытные оптимизаторы, таким же получится и результат.

20.04.2005 17:48 | пишет ppp | ссылка

>это будут начинающие неопытные оптимизаторы, таким же получится и результат
Каков поп, таков и приход :)

2 лавренко:
>на них будет возложена общественная нагрузка :-)
Таскать резиновые бревна по субботам? :)

20.04.2005 17:50 | пишет Про | ссылка

Вообще очень сомнительно, что получится обучить нейросеть на крайне малочисленных, далеко не самых всеобъемлющих и, что уж греха таить, не самых честных примерах.

20.04.2005 18:25 | пишет лавренко | ссылка

БУМ, мы откроем, если мы мало оптимизаторов наберем. а сейчас мы ее держим закрытой, чтобы коммерческие поисковики не расстраивать слишком сильно -- мы же их выдачей пользуемся :-)

Про, будет мало (честных) примеров -- будем думать о другом методе. если вы подскажите такой другой метод (приемлемый для научного проекта) -- будем безмерно благодарны :) (например, назначим почетным оптимизатором :)

21.04.2005 14:47 | пишет лавренко | ссылка

andrey, деньги есть, но если мы скажем, что они у нас есть, поисковики на нас обидятся и быстро попросят поделиться :-))) (ребята, это шутка :-)))

на самом деле речь идет просто о банальной аппроксимации (или если хотите -- экстраполяции) функции R'(Q)=F(Q, R(Q), G), где Q -- запрос пользователя, R -- результаты поиска, а R' -- видоизмененные результаты поиска в соответствии с критериями релевантности G. Гипотеза состоит в том, что если удастся аппроксимировать эту функцию на некотором наборе данных О (белые оптимизаторы, один критерий релевантности), то и на наборе П (пользователи, немножко другой критерий релевантности) ее тоже удастся оптимизировать. Проверкой этой гипотезы мы займемся только после того, когда поймем, что мы умеем качественно аппроксимировать на наборе О, когда поймем -- возьмемся и за набор П.

20.04.2005 21:36 | пишет БУМ | ссылка

Коли речь идет о научности..
1) Отказаться от привлечения оптимизаторов - их понимание "релевантности" может резко отличаться от взгладов обычного интернет-пользователя. Для оптимизатора одно понимание релеватности - наличие продвигаемого сайта на первой странице результатов выдачи и плевать, что за контент на самом сайте, и плевать, кто еще находится на первой странице.
2) Определить критерии релевантности, а для этого провести исследование среди обычных интернет-пользователей, для которых, собственно, и предназначеты поисковые системы.
3) Собрать инициативную группу (студентов МГУ, например) можно и с привлечением через Интернет.
4) Ознакомить эту группу с критериями релевантности.
5) Достать базу поисковых запросов (яндекса, рамблера, мыла..).
6) Методом случайной выборки выбирать запросы. Результаты выдачи по каждому запросу должен оценивать каждый студент и средние характеристики уже добавлять для обучения системы.

20.04.2005 21:46 | пишет БУМ | ссылка

Есть еще один очень интересный способ, который может подействовать первое время: предложить самим пользователями nigma.ru прямо в результатах выдачи повышать и понижать рейтинг страниц. Напротив каждой ссылки кнопки "Оцените ссылку: палец вверх, палец вниз". Хотя тут придется вводить какую-нибудь премодерацию оценок, чтобы исключать накрутки со стороны владельцев сайтов.. Можно и автоматически - с одного айпи для одного и того же сайта принимать один голос в сутки. Даже если владелец будет по одному раза за себя голосовать, а 1000 пользователей против него, то и его сайт никогда не появится сверху.. Конечно, изобретут методы накруток с разных ip, но такие сайты при обнаружении можно ставить в бан, а если для какого-то нового сайта резко поступает большое количество "за", то автоматически сообщать об этом модератору для ручной проверки.

20.04.2005 21:58 | пишет Ad | ссылка

Всё хорошо, только вы забыли про посещаемость этого мета-поиска. Запросы и их оценки пользователями навряд ли пересекутся и один голос решит всё :)

21.04.2005 00:57 | пишет лавренко | ссылка

БУМ, проблемы вашего второго метода вы описали и сами, а первый проблематичен организационно -- не то чтобы я боялся организационных проблем, но лучше бы эту энергию потратить на алгоритмы, нежели чем на мотивирование студентов работы в качестве бесплатных асессоров. не прокатит идея с оптимизаторами -- ну будем обучать другим методам. и, в конце концов, нам интересен алгоритм -- пусть обучающая выборка будет не очень точна, т.е. результаты релевантны в определении О -- с точки зрения оптимизаторов, а не в определении П -- с точки зрения пользователя, но если удастся обучить нейросеть так, чтобы она умела выдавать релевантные результаты в определении О даже если за них никто не голосовал (т.е. правильно угадывать, как бы за эти ресурсы голосовали оптимизаторы), то тогда уже будет проще -- если О и П будут сильно отличаться -- ну что ж, изыщем возможность получить другую обучающую выборку. а так нам нужна хоть какая-то, главное -- большая.

21.04.2005 03:03 | пишет Про | ссылка

Виктор, оставьте контактную почту. Есть о чем побеседовать.

21.04.2005 08:24 | пишет лавренко | ссылка

Про, пишите на lavrenko собака nigma.ru

21.04.2005 11:41 | пишет andrey | ссылка

забейте на поисковую систему
если нет денег

к чему эта буря в стакане воды

21.04.2005 16:35 | пишет БУМ | ссылка

А функцию планируется строить на основе тех маленьких урезанных кусков текста, которые отдают поисковики, а не на основе полного текста страниц?

21.04.2005 18:04 | пишет лавренко | ссылка

БУМ, прикол в том, что даже те куски текста нам придется очень сильно урезать, нам даже запрос придется немного подрезать. иначе это будет функция в несколькотысячемерном пространстве, а такие функции аппроксимировать бесполезно, проще random'ом :-)

21.04.2005 18:05 | пишет mikh | ссылка

БУМ вот только не надо всех под одну гребенку. Есть разные оптимизаторы и разные методы.

22.04.2005 12:19 | пишет Старый ворчун с московской колокольни | ссылка

Нейросети - модный хуенк.

Для применения в тысясячемерном пространстве, коим является результат поиска, практически непригодны.
Врожденную болезнь нейросетей - выдачу результатов от балды вследствие переобученности - даже упоминать не стоит, т.к. сеть еще нужно обучить выдавать результаты с приемлемой ошибкой. А обучать сеть случайной выборкой, которая скорректирована экспертными оценками, - это пустая трата времени.

22.04.2005 14:03 | пишет лавренко | ссылка

Старый ворчун с московской колокольни, а какие методы моделирования поведения экспертов вы бы посоветовали?

22.04.2005 15:20 | пишет xen | ссылка

Вам помогать имеет смысл если бы вы выкладывали свои исходные коды которыми реально можно было бы воспользоваться.

Сейчас бизнес-модель такая: "вы нам помогаете, а потом мы у себя баннеры повесим".

Добрые люди из Вебпланеты вам рекламу делают, ну так и вы делайте что-то полезное.

Кстати после открытия исходников может оказаться, что вам и помогать не стоило, а может быть вы и станете "именно тем поисковиком".