Копирование контента - самая распространенная причина бана

Почему же в последние годы копирование чужого контента стало самой распространенной причиной бана?


Давайте посмотрим на эту проблему с точки зрения поисковика.


Первое, на что следует обратить внимание, это то, что поисковым системам Интернете абсолютно наплевать на такие вещи, как авторские права. Также им наплевать и на то, где какой-либо контент появился сначала, а где потом появились его многочисленные копии. Им, по большому счету, совершенно без разницы, какой из сайтов окажется в поисковой выдаче впереди, тот, где контент является оригинальным или тот, где контент скопирован из другого места.


Дело в том, что человеку, который ищет какую-то информацию в Интернете через поисковик, совершенно не важно, где он найдет эту информацию, на том сайте, где она появилась вперед всех других сайтов, или на том сайте, где появилась копия этой информации с первого сайта. Поисковики знают это и поэтому они не строят из себя борцов за авторские права. Бороться за авторские права должны правообладатели, а не поисковые системы. У поисковых систем совсем другая задача. У них задача, это как можно более точнее найти информацию, а не выяснять источник этой информации.


Тем не менее, мы видим, как в последние годы многие поисковики и, особенно, Яндекс начали упорно банить копипастные сайты и подводить их под разные фильтры, самым легендарным из которых стал АГС-17. Давайте разберемся, что же происходит на самом деле.


Все поисковики хранят полезный контент сайтов у себя на серверах. Что такое полезный контент, чем он отличается от неполезного контента, каковы критерии сортировки контента, мы тут рассматривать не будем. Это тема отдельного поста. Пока полагайтесь на свою интуицию сами. Понятно, что, чем больше в Интернете этого контента, тем поисковику больше требуется серверов или больше их объемов. Другими словами, требуется всё больше и больше суммарный объем всех серверов поисковой системы, для хранения базы индексируемых сайтов.


Разумеется, что с ростом суммарного полезного контента Интернета, поисковики постоянно наращивают количество серверов и их объемы. И всё будет хорошо, если финансовые возможности поисковой системы позволяют ей наращивать суммарный объем своих серверов такими же темпами, какими идет рост объема полезного контента Интернета. Если объем контента в Интернете растет более быстрыми темпами, чем растет объем серверов поисковой системы, то поисковая система в принципе не может проиндексировать весь Интернет.


Основной источник доходов поисковых систем, это услуги контекстной рекламы. Этих денег должно хватать на то, чтобы ежегодно вводить в строй всё новое и новое количество серверов для того, чтобы угнаться за растущим суммарным объемом контента в Интернете.


Если финансовое положение какой-нибудь поисковой системы даже не становится хуже, а просто темпы наращивания своих финансов начинают отставать от темпов роста Интернета, так тут же перед такой поисковой системой встает вопрос о том, что надо пожертвовать индексацией каких-нибудь сайтов. Ведь контент всех сайтов поместиться на серверах такого поисковика уже не может. Поэтому поисковая система должна решить для себя вопрос, за счет каких сайтов можно сэкономить место на своих серверах, какие сайты пустить под нож.


При этом задача стоит так, чтобы, после вырезания этих сайтов из своего индекса, потери полноты выдачи были минимальными. Вот тут поисковики вспоминают про копированный контент на некоторых сайтах. Ведь в Интернете есть целые сайты, на которых находится только копированный контент. Из-за таких сайтов с копированным контентом, по существу, на серверах поисковика один и тот же контент может находиться не один раз, а десятки и сотни раз. И если на серверах поисковика почистить эти копии одного и того же контента, то на серверах поисковика освободится довольно много места. Например, в Рунете есть такие тематики, где копированный контент занимает объем до 40% всего контента в этой теме. Вы и сами, наверное, не раз видели такое явление, когда по какому-нибудь запросу поисковик хотя и выдает целый список страниц с разных сайтов, но на всех этих страницах находится одна и та же статья.


Поэтому, в первую очередь, поисковикам приходит в голову банить такие сайты, которые в течение длительного времени показали себя как сайты только с копированным контентом. Затем, во вторую очередь, банить такие сайты, где, например, копированного контента свыше 90%. Потом, где копированного контента, например, свыше 80%. И так далее, постепенно ужесточая требование к минимальной доли копированного контента до тех пор, пока количество вводимых серверов не начнет хватать для индексации той части Интернета, которая удовлетворяет условию на минимальную долю копированного контента на сайте.


Таким образом, как только у какого-то поисковика начинаются финансовые проблемы со введением достаточного количества новых серверов, так мы тут же замечаем усиление репрессивных мер к сайтам у этого поисковика. Цель такого закручивания гаек состоит в том, чтобы сравнять рост индексируемого контента с ростом своих доходов, то есть сравнять с увеличением объема своих серверов.


Если эти меры не помогают, то поисковик начинает дальнейшее ужесточение своих критериев отбора сайтов в свой индекс. Планка качества и полезности сайтов у такого поисковика начинает ползти вверх. При этом начинают баниться вполне нормальные сайты с оригинальным контентом.


Например, в первой половине 2000-х годов такой поисковик Рунета, как Aport, сначала забанил большую часть сайтов Рунета, так, что его выдача стала никуда не годной. И только потом он окончательно сдох. Затем эта же история повторилась с поисковиком Rambler. Этот поисковик начал страдать усилением полицейских функций во второй половине 2000-х годов. Чем это закончилось, известно. Rambler полностью отказался от своей поисковой машины и перешел на поисковую машину Яндекса с использованием его индексной базы.


А сейчас складывается такое впечатление, что подошла и очередь Яндекса. Яндекс получает доходы только от контекстной рекламы в Рунете, в отличие от Гугла. Гугл получает доходы от контекстной рекламы по всему миру. С одной стороны, Яндекс-то и индексирует не весь Интернет, а только Рунет (русскоязычную часть Интернета). Значит, и серверов ему надо гораздо меньше, чем Гуглу. Но, с другой стороны, стоимость контекстной рекламы в Рунете много ниже, чем в Буржуйнете.


Казалось бы, ну и что. Меньше зарабатывает, но и меньше надо тратить на сервера.


А вот и нет! В расчете на одну единицу населения Рунета получается, что рекламных денег Яндекс зарабатывает меньше Гугловских в Буржуйнете, а тратить денег на покупку серверных мегабайтов должен практически столько же. Дело в том, что, с одной стороны, покупательная способность населения Рунета гораздо ниже покупательной способности Буржуйнета. Поэтому наши фирмы не могут тратить на рекламу такие же деньги, как фирмы в Буржуйнете, так как на рекламу тратится не более чем заработано. А, с другой стороны, наши люди плодят контент в Интернете в расчете на единицу жителя ничуть не меньше, чем население Буржуйнета. Мы же практически не уступаем им по уровню образования. А сейчас мы еще и практически догнали их по уровню охвата населения Интернетом.


Вот и получается, что если сравнивать Яндекс и Гугл, то на единицу населения Яндексу приходится покупать столько же мегабайт, сколько и Гуглу, а денег на единицу населения Яндекс зарабатывает меньше. Гугл в Рунете, кстати, тоже зарабатывает меньше, чем в Буржуйнете. Но заработанных в Буржуйнете денег Гуглу хватает, чтобы докинуть их на свои сервера для Рунета и для какого-нибудь Афронета.


Как-то незаметно в русском языке прижился глагол "гуглить" и всякие его производные, типа "погуглить", "загуглить" и др. (Заметьте, не "яндексить", что наводит на некоторые размышления.) А тут вдруг недавно узнаю, что появился еще один новый глагол "ванговать" (или "вангавать", не знаю, как правильно, а гуглить лень). Это от слова "Ванга", то есть предсказывать, прогнозировать. Попробую и я пованговать.


Итак, вангую. Если Яндекс будет проигрывать Гуглу в конкурентной борьбе за рынок контекстной рекламы, то будет происходить усиление репрессий со стороны Яндекса не только в отношении копипастных сайтов, но и по отношению к нормальным сайтам с оригинальным контентом. Все сайты Рунета в индексе Яндекса не поместятся, и поэтому Яндексу придется поднимать вверх планку того, что он понимает под понятием "нормальный сайт". И, значит, многим сайтам Рунета будет сложнее соответствовать его критериям нормального сайта. Мы будем наблюдать, как в бан сначала уйдут все сайты мало-мальски замеченные в копировании чужого контента, а затем начнут массово баниться сайты и с оригинальным контентом.


Ситуация с Яндексом плоха еще и тем, что все его фильтры разрабатываются в какой-то спешке, как "на коленках", запускаются сырыми, недоделанными и с ошибками. В результате, под горячую раздачу Яндекса всё чаще попадают вполне нормальные сайты для людей с оригинальным контентом. Это, видимо, чисто российская особенность


А если, наоборот, Яндекс не будет проигрывать Гуглу конкурентную борьбу за рынок контекстной рекламы Рунета, то вангую, что многие забаненные сайты начнут возвращаться обратно в индекс Яндекса.


------------------

Автор статьи: Евгений Миронов.

Комментарии к этой заметке больше не принимаются.



май 2013
пн вт ср чт пт сб вс
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31