?

Log in

No account? Create an account

Previous Entry | Next Entry

Переход по щелчкуВ верхнее тематическое оглавление
 Переход по щелчку Тематическое оглавление (Блогосфера)

Так как в комментах к моему посту http://uborshizzza.livejournal.com/2522405.html о том, сколько нужно ресурсов под обеспечение функционирования ЖЖ, начались обсуждения технических деталей, то давайте посчитаем, сколько нужно железа под "все ЖЖ". А то ведутся разговоры о том, что нужно огромное количество могучих систем хранения данных по 100 терабайт на борту.

Итак, за прошлый день в ЖЖ - около 70 тысяч новых записей. Это порядка 70 Мбайт голого текста. С комментами - пусть 100. За год набирается 37 Гб. За 20 лет не накопится даже терабайта (и это надо учесть, что давно сдохшие аккаунты безвозвратно удаляются.

Правда (и я об этом в предыдущем посте писал) код ЖЖ таков, что там записывается огромное количество всякой фигни, ненужного для статических страниц преимущественно текстовой информации кода. Однако, во-первых, сами виноваты, а, во-вторых, все равно не так много. Даже если средний пост за счет навески не 1К, а 20, то мы получаем 750 Гбайт в год и общий архив за все время существования ЖЖ – порядка 10 Терабайт.

То есть сейчас каждый из нас, прикрутив к компьютеру несколько больших винчестеров, может держать архив ВСЕГО ЖЖ у себя дома. А если заархивировать, то и на один терабайтный винчестер влезет. Какие там огромные и дорогие системы хранения данных?

Так что все эти 10 могучих кластеров, на которых висит ЖЖ и о которых гордо рассказывают, не сообщая пошлых подробностей – это компьютеры с 2 зазеркаленными терабайтными винтами. Цена увеличения вычислительной мощности вдвое – 20 килобаксов. То есть меньше, чем каждый козел Фрэнк получает за год.
Buy for 60 tokens
Buy promo for minimal price.

Comments

( 57 комментариев — Порадовать комментарием )
mindfactor
22 май, 2013 13:30 (UTC)
Не забываем, не забываем про полнотекстовые индексы базы данных.
uborshizzza
22 май, 2013 13:40 (UTC)
Попробуйте прикинуть их размер
(без темы) - mindfactor - 22 май, 2013 13:42 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 13:45 (UTC) - Развернуть
(без темы) - mindfactor - 22 май, 2013 13:50 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 14:04 (UTC) - Развернуть
(без темы) - mindfactor - 22 май, 2013 14:21 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 14:24 (UTC) - Развернуть
(без темы) - mindfactor - 22 май, 2013 14:30 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 14:41 (UTC) - Развернуть
(без темы) - rollog2 - 22 май, 2013 14:51 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 15:03 (UTC) - Развернуть
(без темы) - mindfactor - 23 май, 2013 05:37 (UTC) - Развернуть
(без темы) - uborshizzza - 23 май, 2013 05:40 (UTC) - Развернуть
(без темы) - mindfactor - 23 май, 2013 05:49 (UTC) - Развернуть
(без темы) - uncle_grue - 22 май, 2013 16:13 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 16:21 (UTC) - Развернуть
(без темы) - mindfactor - 23 май, 2013 05:10 (UTC) - Развернуть
(Удалённый комментарий)
(без темы) - uborshizzza - 22 май, 2013 16:42 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 13:42 (UTC) - Развернуть
mindfactor
22 май, 2013 13:31 (UTC)
Впрочем, жгите напалмом дальше, читать про "компьютеры с 2 зазеркаленными терабайтными винтами" не только мне будет смешно.
_luden_
22 май, 2013 13:42 (UTC)
Вот только НАГРУЗКУ это "решение" выдержит совсем мизерную.

Поймите Вы наконец, объём не единственная, а в данном случае совсем не самая важная, характеристика СХД.

Что Вы будете кластером обрабатывать, если с дисковой подсистемы вы будете получать не более нескольких сотен IOPS?
Да даже несколько тысяч.

На досуге можете сделать опыт, чтобы увидеть, что такое недостаточная скорость диска при многих запросах.

Берёте виртуальную машину (VMWare player - бесплатное приложение, которое позволяет заранее созданные виртуальные машины запускать).
Разместите пяток копий этой машины на одном диске.
Разом запустите их на загрузку.
У Вас дист просто "встанет" колом.
Потому что на такую нагрузку он не рассчитан.

Так вот это - малая нагрузка.
Для обслуживания одновременных запросов нескольких тысяч пользователей требуются тысячи дисков.
Умножаем на два для отказоустойчивости.

Это совсем не тоже самое что "каждый из нас, прикрутив к компьютеру несколько больших винчестеров, может держать архив ВСЕГО ЖЖ у себя дома".
uborshizzza
22 май, 2013 13:56 (UTC)
Значит, в том, что больших дисковых массивов для хранения ЖЖ не нужно, мы сошлись, и вместо "корзинок" винтов все это может работать на десятке-другом серверов с парой винтов на каждом, мы сошлись?

Что касается быстродействия. Разумеется, для обеспечения работы распределенной базы данных в 10 Терабайт и миллионами пользователей нужны хорошие вычислительные возможности. Но и работа пользователей с ЖЖ - тоже не запросы на выборку из базы данных. Там нет прелестей SQL. Все, что может сделать юзер - это перейти по ссылке. Ему сбрасывают страничку. Он ее читает, потом щелкает по ссылке, ему выбрасывают другую страничку, он ее опять читает...

Разумеется, сейчас мы начинаем гадать на кофейной гуще. Нет данных по реальной загрузке. Однако, насколько я помню, во времена летних ДДОС-атак они выкладывали кое-какие данные по трафику, и все удивлялись по поводу того, с чего бы были проблемы.
(без темы) - mindfactor - 22 май, 2013 14:08 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 14:21 (UTC) - Развернуть
(без темы) - mindfactor - 22 май, 2013 14:28 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 14:38 (UTC) - Развернуть
(без темы) - mindfactor - 23 май, 2013 05:20 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 16:52 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 17:12 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 17:20 (UTC) - Развернуть
ray_idaho
22 май, 2013 13:56 (UTC)
моя копия блога на автономке весит где-то 200 мб с картинками, если таких как я хотя бы 100 000, то 20 терабайт легко получается
uborshizzza
22 май, 2013 14:00 (UTC)
Тут есть еще один момент - картинки. Помимо текста у пользователей ЖЖ есть и фотоальбомы. Для бесплатных аккаунтов они - 1 Гб. Однако висят они не на пресловутых кластерах, а на отдельном сторонем фотохостинге, который СУП арендует, и там проблем нет.
p00z
22 май, 2013 14:29 (UTC)
проблемы начались внезапно. я в жж с 2005 года и падать сервис начал с приходом криворуких суповских програмеров.
uborshizzza
22 май, 2013 14:39 (UTC)
Ну да.
Сервис работает примерно в тех же рамках. Нагрузка возрастает достаточно медленно, а возможности железа выросли на пару порядков. Если раньше железа хватало, то какие проблемы могут быть сейчас?
candidg
22 май, 2013 15:15 (UTC)
Я думаю Вы вряд ли будете позитивно относиться к дилетантским рассуждениям в собственной профессиональной области. То, что каждый нынче имеет компьютер, не делает его (каждого) специалистом в информационных технологиях.

Технологии, требования и цены в больших сетях очень отличаются от домашних компьютеров и даже корпоративных серверов.
uborshizzza
22 май, 2013 15:30 (UTC)
Попробуйте конкретизировать Ваши замечания о возможных ошибках. Несколько уважаемых оппонентов это уже делали, и в ходе обсуждения было выяснено, что они ориентировались на информационные системы совсем другого класса, чем ЖЖ.
bombus_novus
22 май, 2013 15:18 (UTC)
Пипец, какая чушь!!!
Вы вообще хотя бы видели изнутри вычислительную систему сложнее компьютерного класса?!
Это наверно то самое, что называется воинственная безграмотность.
Утереть всем нос, пользуясь одной арифметикой.
Атлична, атлична.
Индексы - данунах.
Фотографии - пренебречь.
Бэкап - не вспоминаем.

Не позорьтесь.
А впрочем, вам уже посоветовали жечь напалмом дальше. Не буду отговаривать.
uborshizzza
22 май, 2013 15:28 (UTC)
Фотографии лежат не в ЖЖ, а на отдельном фотохостинге, который они арендуют.

Индексные массивы нужны там, где есть индексация, то есть в базах данных с возможностью выполнения запросов. В ЖЖ такого нет в принципе.

Бэкап - умножение вдвое.

Где напалм?
(без темы) - uncle_grue - 22 май, 2013 16:21 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 16:27 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 16:55 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 17:08 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 17:12 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 17:56 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 17:59 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 17:33 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 17:56 (UTC) - Развернуть
(без темы) - _luden_ - 22 май, 2013 17:58 (UTC) - Развернуть
(без темы) - (Анонимно) - 22 май, 2013 20:53 (UTC) - Развернуть
(без темы) - _luden_ - 23 май, 2013 04:21 (UTC) - Развернуть
(без темы) - bombus_novus - 22 май, 2013 16:25 (UTC) - Развернуть
(без темы) - uborshizzza - 22 май, 2013 16:37 (UTC) - Развернуть
(без темы) - bombus_novus - 27 май, 2013 09:40 (UTC) - Развернуть
vatuma
23 май, 2013 05:35 (UTC)
Ваши рассуждения показывают, как далеко Вы находитесь от этой области.
Они похожи на следующие рассуждения:
"Не понимаю, почему пересадка сердца стоит сотню тысяч долларов и длится часами. Делов-то - отрезал, да пришил. А само сердце - так вообще бесплатным должно быть - человек-то умер уже. Итого стоимость трансплантации должна быть равна... ну... тысячи 2-3 рублей".
Выше сказали очень точно о Ваших рассуждениях - "Слепые щупают слона".
uborshizzza
23 май, 2013 05:43 (UTC)
Понимаете ли, при объяснении стоимости операции по пересадке сердца специалист тут же приводит строчку с расчетами, сколько и почему это стоит.

Вот попробуйте аргументировать Ваши возражения - и Вы, возможно, поймете, что особых расхождений с тем, что у меня, у Вас не будет
(без темы) - vatuma - 23 май, 2013 06:34 (UTC) - Развернуть
( 57 комментариев — Порадовать комментарием )

Latest Month

Август 2019
Вс Пн Вт Ср Чт Пт Сб
    123
45678910
11121314151617
18192021222324
25262728293031

Метки

Разработано LiveJournal.com
Designed by Tiffany Chow