Основы креационизма
Креацентр > Статьи > Основы креационизма > Статистический взгляд на информацию

Статистический взгляд на информацию

Шенноновское определение информации влечет за собой лишь один незначительный аспект природы информации, о чем мы подробно поговорим.

A1.1 Теория информации Шеннона

Клод Э. Шеннон (родился в 1916 году) в своей известной книге «Математическая теория коммуникаций» [S7, 1948] первым сформулировал математическое определение информации. Его мера информации, «бит» (двоичная цифра), имела то преимущество, что количественные свойства строк символов могли быть сформулированы. Недостаток столь же очевиден: шенноновское определение информации влечет за собой лишь один незначительный аспект природы информации, о чем мы подробно поговорим. Единственная ценность этого особого аспекта заключается в целях передачи и хранения. Вопросы смысла, понятности, правильности и ценности или бесполезности вообще не рассматриваются. Важные вопросы о происхождении (отправителе) и для кого он предназначен (получатель) также игнорируются. Для концепции информации Шеннона совершенно несущественно, представляет ли последовательность символов чрезвычайно важный и значимый текст, или же она была произведена случайным процессом. Это может показаться парадоксальным, но в этой теории случайная последовательность символов представляет собой максимальное значение информационного содержания — соответствующее значение или число для значимого текста такой же длины меньше.

Концепция Шеннона: его определение информации основано на задаче связи, а именно на определении оптимальной скорости передачи. Для технических целей значение и импорт сообщения не имеют никакого значения, так что эти аспекты не были рассмотрены. Шеннон ограничился информацией, выражающей нечто новое, так что, вкратце, информационное содержание = мера новизны, где «новизна» не относится к новой идее, новой мысли или свежим новостям, которые охватывали бы аспект смысла. Это касается только эффекта неожиданности, производимого редко встречающимся символом. Шеннон рассматривает сообщение как информацию только в том случае, если оно не может быть полностью установлено заранее, так что информация является мерой маловероятности события. Таким образом, крайне маловероятному сообщению присваивается большое информационное содержание. Новость о том, что некий человек из двух миллионов участников вытянул выигрышный билет, является для него более «значимой», чем, если бы у каждого десятого человека был шанс, потому что первое событие гораздо более маловероятно.

Рисунок 31: модель дискретного источника для генерации последовательностей символов. Источник содержит N различных символов (например, алфавит с 26 буквами), из которых длинная последовательность из n символов передается один за другим в определенное время. Источником может быть генератор символов, который выпускает случайные последовательности символов в соответствии с заданным распределением вероятностей, или это может быть неизвестный текст, хранящийся на магнитной ленте, который передается последовательно (т. е. по одному символу за раз).

Прежде чем дискретный источник символов (NB: не источник информации!) доставляет один символ (рис. 31), возникает определенное сомнение относительно того, какой именно символ ai из имеющегося набора символов (например, алфавит с N буквами a1, a2, a3,. . . , aN) это будет. После того, как он был доставлен, предыдущая неопределенность устраняется. Таким образом, метод Шеннона можно сформулировать как степень неопределенности, которая будет разрешена при появлении следующего символа. Когда следующий символ является «сюрпризом», ему присваивается большее информационное значение, чем когда его ожидают с определенной «уверенностью». Читатель, увлекающийся математикой, может быть заинтересован в выводе некоторых основных формул Шеннона; это может способствовать лучшему пониманию его линии рассуждений.

1. Информационное содержание последовательности символов: Шеннона интересовала только вероятность появления различных символов, что теперь должно стать более понятным. Таким образом, он занимался только статистическим измерением информации и сводил понятие информации к чему-то без какого-либо значения. Если предположить, что вероятность появления различных символов не зависит друг от друга (например, за «q» не обязательно следует «u»), и что все N символов имеют равную вероятность появления, то мы имеем: вероятность появления любого выбранного символа xi задается pi = 1 / N. Информационное содержание определяется Шенноном таким образом, что должны быть выполнены три условия:

1) Если имеется k независимых сообщений1 (символов или последовательностей символов), то общее информационное содержание задается Itot= I1+ I2+...+ Ik. Это условие суммирования рассматривает информацию как поддающуюся количественной оценке.

2) информационное содержание, приписываемое сообщению, увеличивается, когда элемент неожиданности больше. Эффект неожиданности редко используемого «z» (низкая вероятность) больше, чем для «e», который появляется чаще (высокая вероятность). Отсюда следует, что информационная ценность символа xі возрастает при уменьшении его вероятности pi. Это выражается математически в виде обратной пропорции: I ~ 1 / pi.

3) в простейшем симметричном случае, когда есть только два различных символа (например, «0» и «1»), которые встречаются одинаково часто (pi = 0,5 и p2 = 0,5), информационное содержание I такого символа будет ровно одним битом.

Согласно законам вероятности, вероятность двух независимых событий (например, бросания двух кубиков) равна произведению единичных вероятностей:

p = 1 x 2 (1)

Первое требование (1) (i) I ( p ) = I ( 1 x 2 ) = I ( 1 ) + I ( 2 ) выполняется математически, когда берется логарифм уравнения (1). Второе требование (2) выполняется, когда 1 и p2 заменяются их взаимными ответами 1 / 1 и 1 / 2 :

I ( 1 x 2 ) = log (1 / 1 ) + log (1 / 2 ). (2)

До сих пор основание b логарифмов в уравнении (2) влечет за собой вопрос о мере и устанавливается третьим требованием (3):

I = log b (1 / p) = log b (1 / 0.5) = log b 2 = 1 бит (3)

Из log b = 1 следует, что основание b = 2 (поэтому мы можем рассматривать его как двоичный логарифм, в качестве обозначения мы используем log2 = lb; давая lb x = (log x ) / (log 2); log x означает общий логарифм, который использует основание 10:logх = log10х). Теперь мы можем сделать вывод, что определение информационного содержания I одного символа с вероятностью p появления, является

I ( p ) = lb (1 / p ) = - lb p ≥ 0. (4)

Согласно определению Шеннона, информационное содержание одного сообщения (будь то один символ, один слог или одно слово) является мерой неопределенности его восприятия. Вероятности могут иметь только значения в диапазоне от 0 до 1 (0 ≤ p ≤1), и из уравнения (4) следует, что I(p) ≥ 0, то есть числовое значение информативности всегда положительно. Информационное содержание ряда сообщений (например, символов) затем определяется требованием (i) в терминах суммы значений для отдельных сообщений.

tot = lb (1 / 1 ) + lb (1 / 2 ) + ... + lb (1 / n ) = ∑ lb (1 / i ) i = 1 (5)

Как показано в [G7], уравнение (5) можно свести к следующему математически эквивалентному соотношению:

N tot = n x ∑ p (xi) x lb (1 / ( p ( i )) = n x H i = 1 (6)

Обратите внимание на разницу между n и N, используемыми со знаком суммирования ∑. В уравнении (5) суммирование берется по всем n членам полученной последовательности знаков, но в уравнении (6) суммируется по числу символов N в наборе доступных символов.

Объяснение переменных, используемых в формулах:

n = количество символов в заданной (длинной) последовательности (например, общее количество букв в книге)

N = количество различных доступных символов (например: N = 2 для двоичных символов 0 и 1, а также для символов азбуки Морзе и –

N = 26 для латинского алфавита: A, B, C, . . . , Z

N = 26 x 26 = 676 для биграмм с использованием латинского алфавита: AA, AB, AC, . . . , ZZ

N = 4 для генетического кода: A, C, G, T

Xі; i = от 1 до N, последовательность из N различных символов

tot = информационное наполнение всей последовательности символов

H = среднее информационное содержание одного символа (или биграммы, или триграммы); среднее значение информационного содержания одного символа, взятого в длинной последовательности или даже по всему языку (подсчитывается для многих книг из различных типов литературы).

Уравнения Шеннона (6) и (8) использовались для нахождения общего (статистического!) информационного содержания последовательности символов (например, предложения, главы или книги) состоит из двух существенно различных частей:

а) коэффициент n, который указывает на то, что содержание информации прямо пропорционально количеству используемых символов. Этого совершенно недостаточно для описания реальной информации. Если, например, кто-то использует поток слов, ничего не говоря, то Шеннон оценил бы информационное содержание как очень большое из-за большого количества используемых букв. С другой стороны, если кто-то, кто является экспертом, выражает фактические значения сжато, его «сообщение» получает очень небольшое информационное содержание.

б) переменная H, выраженная в уравнении (6) как суммирование по имеющемуся набору элементарных символов. H относится к различным частотным распределениям букв и, таким образом, описывает общую характеристику используемого языка. Если два языка A и B используют один и тот же алфавит (например, латинский алфавит), то будет больше для A, когда буквы распределены более равномерно, т. е. ближе к равному распределению. Если все символы встречаются с одинаковой частотой, то H = lb N будет максимумом.

Равное распределение является исключительным случаем: мы рассматриваем случай, когда все символы могут встречаться с равной вероятностью, например, когда нули и единицы появляются с той же частотой, что и для случайных двоичных сигналов. Вероятность того, что два заданных символа (например, G, G) появляются непосредственно один за другим, равна p2; но информационное содержание I удваивается из-за логарифмической зависимости. Информационное содержание произвольной длинной последовательности символов (n символов) из доступного источника (например, алфавита), когда вероятность всех символов одинакова, т. е.:

1 = 2 = ... = N = p, определяется из уравнения (5) как:

n tot = ∑ lb (1 / i ) = n x lb (1 / p ) = - n x lb p . я = 1 (7)

Если все N символов могут встречаться с одинаковой частотой, то вероятность равна p = 1 / N. Если это значение подставить в уравнение (7), то получим важное уравнение:

Itot = n x lb N = n x H. (8)

2. Среднее информационное содержание одного символа в последовательности: если символы длинной последовательности встречаются с разной вероятностью (например, последовательность букв в английском тексте), то нас интересует среднее информационное содержание каждого символа в этой последовательности или среднее значение в случае самого языка. Другими словами: каково среднее содержание информации в данном случае по отношению к средней неопределенности одного символа?

Для того, тобы вычислить среднее содержание информации на символ Iave, мы должны разделить число, заданное уравнением (6), на количество соответствующих символов:

N Iave = Itot/n = ∑ p(xi) x lb(1/p(xi)). i=1 (9)

При вычислении уравнения (9) для частот букв, встречающихся в английском языке, получены значения, приведенные в Таблице 1. Средняя информативность одного письма равна Iave = 4,045 77. Соответствующее значение для немецкого языка — Iave  = 4.112 95.

Изображение 2

Среднее значение Iave (x), которое может быть вычислено из уравнения (9), таким образом, является средним арифметическим всех единичных значений I (x). Средняя информативность каждого символа приведена в Таблице 1 для двух различных символьных систем (английского и немецкого алфавитов); для простоты вместо Iave используется i. Среднее информационное содержание для каждого символа Iave (x) ≡ i совпадает с математическим значением2 информационного содержания одного символа в длинной последовательности. Эта величина также известна как энтропия3 H источника сообщения или используемого языка (Iave ≡ i ≡ H). Уравнение (9) является фундаментальным выражением в теории Шеннона. Его можно интерпретировать по-разному:

а) информационное содержание каждого символа: H — среднее информационное содержание Iave Iave(x) символа xі в длинной последовательности из n символов. Таким образом, H является характеристикой языка, когда N достаточно велико. Из-за различных частот букв в различных языках, H имеет определенное значение для каждого языка (например, H1 = 4,045 77 для английского языка и для немецкого — 4,112 95).

b) математическое ожидание информационного содержания символа: H можно также рассматривать как ожидаемое значение информационного содержания символа, поступающего из непрерывно передающего источника.

c) среднее содержание решения по символу: H также может рассматриваться как среднее содержание решения по символу. Всегда можно кодировать символы, передаваемые источником сообщений, в последовательность двоичных символов (0 и 1). Если мы рассматриваем двоичный код одного символа как двоичное слово, то H также можно интерпретировать следующим образом (обратите внимание, что двоичные слова не обязательно имеют одинаковую длину): это средняя длина слова кода, необходимого для источника сообщений. Если, например, мы хотим закодировать четыре буквы генетического кода для компьютерного исследования и требования к хранению должны быть минимизированы, то H будет lb 4 = 2 двоичных позиции (например, 00 = A, 01 = C, 10 = G и 11 = T).

d)исключительный случай символов, имеющих равные вероятности: это важный случай, а именно, что все N символов алфавита или некоторого другого набора элементов встречаются с одинаковой вероятностью p (xі) = 1 / N. Чтобы найти среднее информационное содержание одного символа, мы должны разделить правую часть уравнения (8) на n:

HIave (x) ≡ i = lb N (10)

Теперь мы сформулируем это утверждение как специальную теорему:

Теорема А1: В случае последовательностей символов равной вероятности (например, цифр, генерируемых генератором случайных чисел) среднее информационное содержание символа равно информационному содержанию каждого отдельного символа.

А1.2 Математическое описание статистической информации

A1.2.1 Бит: статистическая единица информации

Одна из главных задач науки и техники заключается в том, чтобы выразить результаты, насколько это возможно, в числовой форме или в формуле. Количественные показатели играют важную роль в этих усилиях. Они состоят из двух частей: соответствующего числа или величины и единицы измерения. Последняя представляет собой заранее определенную единицу сравнения (например, метр, секунда, ватт), которая может быть использована для выражения других аналогичных измеряемых величин.

Бит (сокращенно от двоичный символ; bit — binary digit) является единицей измерения информационного содержания. Количество битов совпадает с количеством двоичных символов. В системах обработки данных информация представляется и обрабатывается в виде электрических, оптических или механических сигналов. Для этой цели технически чрезвычайно выгодно, и поэтому принято использовать только два определенных (двоичных) состояния и сигнала. Двоичные состояния обладают тем свойством, что в определенный момент времени может быть задействован только один из двух двоичных символов. Одно состояние обозначается двоичной единицей (1), а другое — двоичным нулем (0). Кроме того, можно иметь различные пары двоичных символов, таких как 0 и L, YES и NO, TRUE и FALSE, и 12 V и 2 V. В компьютерной технике бит также относится к двоичной позиции в машинном слове. Бит также является самой маленькой единицей информации, которая может быть представлена в цифровом компьютере. Когда текст вводится в компьютер, он преобразуется в заранее определенный двоичный код и также сохраняется в этой форме. Одна буква обычно требует 8 двоичных позиций хранения, известных как байт. Информационное содержание (= требование к хранению) текста затем описывается в терминах количества требуемых битов. Таким образом, разным фрагментам текста придается одинаковое информационное содержание, независимо от смысла и значения. Число битов измеряет только статистическое количество информации, без учета ее значимости.

Два компьютерных примера теперь проиллюстрируют преимущества (например, чтобы помочь определить объем пространства для хранения) и недостатки (например, игнорируя семантические аспекты) определения информации Шеннона:

Пример 1. Хранение биологической информации: молекула ДНК человека (клетка тела) имеет длину около 79 дюймов (2 м) при полном растяжении и содержит приблизительно 6 х 109 нуклеотидов (химические буквы: аденин, цитозин, гуанин и тимин). Сколько статистической информации это согласно определению Шеннона? Химические буквы N = 4 химических буквы, A, C, G и T встречаются почти одинаково часто; их среднее информационное содержание составляет H = lb 4 = (log 4)/(log 2) = 2 бита. Таким образом, вся ДНК имеет информационное содержание Itot = 6 x 109 нуклеотидов х 2 бита/нуклеотид = 1,2 х 1010 бит в соответствии с уравнением (10). Это соответствует информации, содержащейся на 750 000 типизированных страницах формата А4, каждая из которых содержит 2000 символов.

Рисунок 32: количество букв L и слов W, иллюстрирующих статистические свойства различных языков.

Пример 2. Статистическое информационное содержание Библии: версия английской Библии короля Иакова состоит из 3 566 480 букв и 783 137 слов [D1]. Когда пробелы между словами также учитываются, тогда n = 3,566,480 + 783,137 - 1 = 4,349,616 символы. Таким образом, среднее информационное содержание одной буквы (также известное как энтропия) составляет H = 4,046 бит (см. таблицу 1). Общее информационное содержание Библии тогда дано Itot = 4,349,616 x 4,046 = 17,6 миллиона битов. Поскольку немецкая Библия содержит больше букв, чем английская, ее информационное содержание тогда больше с точки зрения теории Шеннона, хотя фактическое содержание одинаково в отношении их значения. Это различие доходит до крайности, когда мы рассматриваем язык шипипо Перу, который состоит из 147 букв (см. рисунок 32 и таблицу 2). Библия на шипипо тогда содержит приблизительно в 5,2 (=994/191) раза больше информации, чем английская Библия. Очевидно, что шенноновское определение информации неадекватно и проблематично. Даже когда смысл содержания совершенно одинаков (как в случае с Библией), теория Шеннона приводит к заметным различиям. Его неадекватность заключается в том, что количество информации зависит только от количества букв, не считая специфического для языка фактора H в уравнении (6). Если рассматривать значение, то единица информации должна приводить к равным числам в приведенном выше случае, независимо от языка.

Изображение 4

Таблица 2. Иоанна 1:1-4 на разных языках. (Автор искренне благодарен за тексты Библии, предоставленные г-ном А. Хольцхаузеном, переводчиком Библии Уиклиффа, Бурбах/Германия.)


Первые четыре стиха Евангелия от Иоанна представлены в таблице 2 на трех африканских и четырех американских языках. В моей книге «So steht's geschrieben» [«Так написано», G12, стр. 95-98] одни и те же стихи даны на 47 различных европейских языках для целей сравнения. Аннотация 86 W, 325 L» означает, что используется 86 слов и 325 букв. Седьмой язык в таблице 2 (Mazateco/группа масатекских языков) является тональным языком. Различные значения W и L для Иоанна 1:1-4 показаны на рисунке 32 для 54 языков. Эти 54 языка включают 47 европейских языков, и семь африканских и американских языков. Примечательно, что координаты почти всех европейских языков попадают внутрь данного эллипса. Из них мальтийский язык использует наименьшее количество слов и букв, в то время как индейцы шипипо используют наибольшее количество букв для выражения одной и той же информации.

Требования к хранению последовательности символов следует отличать от ее информационного содержания, определенного Шенноном. Объем памяти не связан с вероятностью появления символа, а только с общим количеством символов. В общем случае для представления одного символа в системе обработки данных требуется 8 бит (= 1 байт). Из этого следует, что 4349 616 букв и пробелов (исключая знаки препинания) английской Библии требуют в восемь раз больше битов, а именно 34,8 миллиона.

А1.2.2 Информационная спираль


Рисунок 34: муравей и микрочип. Микрочипы — это элементы памяти современных компьютеров. Их детали практически незаметны, так как ширина конструкции составляет около одной миллионной метра. То, что 30-тонный компьютер Пенсильванского университета (США) мог сделать в 1946 году, теперь может быть выполнено чипом размером менее 6 квадратных мм. Всего несколько лет назад чипы, способные хранить текст на четырех машинописных страницах, считались революционными. Сегодня все телефонные номера такого города, как Канберра, Австралия, могут быть сохранены на одном чипе, и их скорость работы настолько высока, что Библию можно прочитать 200 раз за одну секунду, но есть одна вещь, которую все чипы в мире никогда не смогут сделать, а именно скопировать муравья и все, что он может сделать. (Источник: «Werkbild Philips»; с любезного разрешения «Valvo Unternehmens-bereichs Bauelemente» фирмы Philips GmbH, Гамбург.)

На рис. 34 показаны два различных диапазона информации, а именно биологическая информация, хранящаяся в молекулах ДНК, представленных муравьем — и микрочип, используемый в новейших компьютерах.

1. Компьютерные технологии: Конрад Цузе (1910-1996), немецкий изобретатель, впервые разработал концепцию программного компьютера, когда он построил первую рабочую электрическую вычислительную машину Z3 в 1941 году. Он использовал 600 телефонных реле для расчетов и 2000 реле для хранения. Она могла хранить 64 числа в каждой группе из 22 двоичных позиций, могла выполнять от 15 до 20 арифметических операций в секунду, и одно умножение требовало от 4 до 5 секунд. Следующим шагом вперед стало внедрение вакуумных ламп (электронных вычислительных машин первого поколения), и компьютер ENIAC начал функционировать в 1946 году. В нем было более 18 000 вакуумных ламп и других компонентов, соединенных между собой более чем полумиллионом паяных соединений. Одна операция сложения требовала 0,2 тысячных секунды, а умножение могло быть выполнено за 2,8 тысячных секунды. Эта установка использовала слово length4 из 10 десятичных знаков, она весила 30 тонн и потребляла 150 кВт электроэнергии. После нескольких лет исследований транзисторы были изобретены в 1947 году. Они были намного меньше и быстрее, чем вакуумные трубки, и их внедрение в качестве переключающих элементов положило начало второму поколению компьютеров в 1955 году. Следующей вехой на пути, ведущем к созданию мощных современных компьютеров, стала идея интегральных схем (ИС; integrated circuits, IC). Различные компоненты включены и соединены в похожих на вид блоках, изготовленных из одних и тех же материалов. Первый IC был сделан в 1958 году, основываясь на новой идее интеграции, предложенной Килби и Хорни. Дальнейшее развитие этой концепции и неуклонное увеличение числа элементов схемы на кремниевый чип привело к появлению третьего поколения компьютеров. IC претерпели быстрое развитие с момента появления первых простых IC в 1958 году. Сегодня 64-мегабитные чипы стали обычным явлением.

Пять степеней интеграции можно выделить в зависимости от количества компонентов на структурную единицу:

Рисунок 33: информационная спираль.


SSI (Small Scale Integration, интеграция малого масштаба) от 1 до 10

MSI (Medium Scale Integration, интеграция среднего масштаба) от 10 до 103

LSI (Large Scale Integration, крупномасштабная интеграция) 10 3 до 10 4

VLSI (Very Large Scale Integration, очень крупномасштабная интеграция) 104 to 106

GSI (Grand Scale Integration, интеграция большого масштаба) 106 и выше

Высокие уровни интеграции, когда от 500 до 150 000 транзисторов размещены на одном кремниевом чипе, имеющем площадь от 5 до 30 мм2, привели к развитию микропроцессоров. Эта технология позволила иметь полные блоки обработки или хранения на одном чипе. Количество схем, которые могут быть интегрированы на одном чипе, удваивается примерно каждые два года. Первый экспериментальный чип, способный хранить более миллиона бит (1 мегабит = 220 бит = 1 048 576 бит), был разработан в 1984 году компанией IBM. Используемая кремниевая пластина измеряла 10,5 мм х 7,7 мм = 80,85 мм2, так что плотность хранения составляла 13,025 бит на квадратный мм. Время, необходимое для доступа к данным на этом чипе, составляло 150 наносекунд (1 нс = 10-9 с). В последующие годы степень интеграции неуклонно возрастала.

Возникает вопрос: можно ли бесконечно увеличивать плотность интеграции? В статье в Elektronische Rechenanlagen (Электронные компьютеры) [F4] О. Г. Фолберт указал на препятствия, которые придется преодолеть в будущих разработках. Такие препятствия в технологии производства, сложности проектирования и испытательных задачах, однако, не являются фундаментальными, но существуют жесткие физические границы конечного характера, которые невозможно преодолеть (геометрические, термические и электрические ограничения). Максимальная плотность интегрирования, которая может быть достигнута с помощью современной кремниевой технологии, может быть рассчитана; установлено, что она составляет 2,5 х 105 единиц решетки на мм2.

Усовершенствование аппаратных элементов позволило компьютерным терминалам и персональным компьютерам стать такими же мощными, как и более ранние мэйнфреймы. Одним из самых быстрых компьютеров является CRAY C916/16, один из серии C-90. Скорость обработки этого 16-процессорного компьютера составляет около 10 GFLOPS (= 10 гига-флопов). Один FLOPS (floating point operations per second/операции с плавающей запятой в секунду) означает, что одно вычисление, включающее действительные числа с плавающими десятичными знаками, может быть выполнено за одну секунду; таким образом, 10 GFLOPS равны 10 тысячам миллионов арифметических вычислений, таких как сложение и умножение, выполняемые за одну секунду.

2. Степень интеграции в живых клетках: нам были представлены  поразительные разработки, включающие увеличение степени интеграции (количество элементов схемы в одном чипе) и плотности интеграции (степень миниатюризации; элементы схемы на единицу площади), как видно из компьютерной технологии. Такого стремительного и уникального развития нет ни в одной другой области техники.

Информация, хранящаяся в молекулах ДНК всех живых клеток, необходима для многочисленных управляемых процессов, включающих сложные и уникальные функции. Молекула ДНК человека (клетки тела) имеет длину около 79 дюймов (2 м) при растяжении и содержит 6 х 109 химических букв. Мы вполне можем спросить, какова плотность упаковки этой информации, и это довольно легко вычислить. Информационное содержание одного нуклеотида составляет два бита, что дает в общей сложности 12 х 109 бит для одной молекулы ДНК. Разделите это на количество битов в одном кбит (1024); это приводит к степени интеграции 11,72 миллиона кбит, что в 180 раз больше, чем вышеупомянутый 64-мегабитный чип. Плотность интеграции более подробно рассматривается в следующей статье.

Это сравнение делает совершенно очевидным, что эволюционный взгляд требует от нас верить в вещи, которые совершенно неразумны. Для производства мегабитного чипа потребовались тысячи человеко-лет исследований, а также беспрецедентные технологические разработки, но мы должны верить, что принципы хранения, воплощенные в ДНК, с их гораздо более высокой степенью интеграции, развивались спонтанно в материи, которая была предоставлена самой себе. Такая «теория», мягко говоря, абсурдна в высшей степени!

Рисунок 35: сравнение плотности статистической информации. Молекулы ДНК содержат самую высокую известную плотность упаковки информации. Этот чрезвычайно блестящий метод хранения достигает предела физически возможного, а именно до уровня отдельных молекул. На этом уровне плотность информации составляет более 1021 бит на см3. Это в 7,7 миллиона миллионов раз больше плотности, полученной при воспроизведении всей Библии на одном фотографическом слайде А. Только если бы на одном слайде В можно было изобразить 7,7 миллиона миллионов Библий (это возможно только теоретически!), имея 2,77 миллиона строк и 2,77 миллиона столбцов со всей Библией, воспроизведенной в каждом крошечном прямоугольнике, мы получили бы плотность упаковки информации, равную плотности, присутствующей во всех живых клетках.

A1.2.3 Наивысшая плотность упаковки информации

Наибольшая известная плотность информации находится в ДНК живых клеток. Диаметр этого химического накопителя, показанного на рис. 35, составляет 2 нм = 2 × 10-9 м, а приращение спирали составляет 3,4 нм (греческий hélix = обмотка, спираль). Объем этого цилиндра равен V = h x d2 x π /4:

V = 3,4 x 10-7 см x (2 x 10-7 см)2 x π / 4 = 10,68 x 10-21 см3 на обмотку

Существует 10 химических букв (нуклеотидов) в каждой обмотке двойной спирали, что дает статистическую информационную плотность:

Ú = 10 букв/(10,68 х 10-21 см3) = 0,94 х 1021 букв на см3

Если мы ограничим среднее содержание информации в 4,32 бита для аминокислоты одной буквой (нуклеотидом) генетического кода, то мы обнаружим, что оно составляет 4,32:3 = 1,44 бита на букву. Теперь мы можем выразить статистическую информационную плотность ДНК следующим образом, где 2 бита берутся как информационное содержание одной буквы:

Ú = (0,94 x 1021 бит / см3 ) x (2 бит / буква) = 1,88 x 1021 бит / см3

Эта плотность упаковки настолько непостижимо велика, что мы нуждаемся в иллюстративном сравнении. Фотографический слайд А на рисунке 35 содержит всю Библию от Бытия до Откровения на своей поверхности 33 мм х 32 мм, воспроизведенную с помощью специальных микрофильмовых процессов [M5]. Из расчетов, приведенных в [G11, стp. 78-81], следует, что молекула ДНК обладает плотностью хранения в 7,7 миллиона миллионов раз большей, чем у слайда А, содержащего всю Библию. Если мы хотим получить плотность упаковки ДНК на фотографическом слайде B, нам придется разделить его поверхность на 2,77 миллиона строк и 2,77 миллиона столбцов и скопировать всю Библию в читаемой форме в каждый из крошечных прямоугольников, сформированных таким образом. Если бы это было возможно, мы достигли бы плотности информации, содержащейся в каждой живой клетке. В любом случае, мы должны помнить, что технологически невозможно получить слайд B, потому что все фотографические методы ограничены макроскопическими воспроизведениями и не могут использовать отдельные молекулы в качестве единиц хранения. Даже если бы удалось добиться такого фотографического сокращения, то у нас все равно была бы только статическая система хранения, которая принципиально отличается от системы хранения ДНК. Принцип хранения молекул ДНК динамичен, так как содержащаяся в них информация может быть передана в неизменном виде другим клеткам с помощью сложных механизмов.

Эти сравнения потрясающе иллюстрируют блестящие концепции хранения, с которыми мы здесь имеем дело, а также экономическое использование материала и миниатюризацию. Самая высокая известная (статистическая) плотность информации получается в живых клетках, намного превосходя лучшие достижения высокоинтегрированных плотностей хранения в компьютерных системах.

A1.3 Оценка систем связи

Технические коммуникационные системы. После обсуждения шенноновского определения информации в пункте А1.1 возникает вопрос: каково применение метода, игнорирующего основные принципы явления? Оригинальное и наиболее важное применение теории информации Шеннона дается двумя так называемыми теоремами кодирования. Эти теоремы утверждают, в частности, что, несмотря на неопределенность, вызванную возмущенным каналом связи, прием сообщения может быть определенным. Другими словами, существует способ кодирования с исправлением ошибок, который обеспечивает большую безопасность сообщения с заданной длиной блока (сообщения).

Кроме того, единица измерения, бит, полученная из определения информации Шеннона, имеет фундаментальное значение для количественной оценки хранения информации. Кроме того, на статистическом уровне можно сравнивать непосредственно заданные объемы информации, которые кодируются различными способами. Эта проблема подробно обсуждалась в предыдущем пункте А1.2.

Коммуникационные системы в живых организмах.

Бернхард Хассенштейн, немецкий биолог и кибернетик, привел впечатляющий пример, иллюстрирующий как блестящую концепцию передачи информации в живых организмах, так и ее оценку с точки зрения теории Шеннона:

«Трудно, даже страшно поверить в несравненную множественность наших переживаний, в изобилие нюансов — света, цветов и форм, а также звуков голосов и шумов… все эти представления в наших чувствительных рецепторных клетках переводятся на сигнальный язык, который более монотонен, чем азбука Морзе. Более того, этот сигнальный язык является единственной основой, благодаря которой изобилие входных сигналов оживает в нашем субъективном восприятии снова — или впервые. Все наши действия и активность также выражаются на этом сигнальном языке, от контроля тела спортсменов до движений рук пианиста или выражения настроения исполнителя в концертном зале.

Что бы мы ни испытывали или ни делали, все импульсы, проходящие через нашу нервную систему от окружающей среды к нашему сознанию и идущие от нашего мозга к двигательным мышцам, делают это в форме самой монотонной системы сообщений, какую только можно себе представить. Следующий новый вопрос был сформулирован только тогда, когда была разработана научная информационная концепция, а именно: каков функциональный смысл выбора языка сигнализации с использованием наименьшего числа символов для передачи такого огромного объема информации? На этот вопрос можно было бы ответить практически сразу с помощью информационной концепции теории информации.

Британский физиолог У. Х. Раштон был первым человеком, который дал ответ, который очень удивил биологов, а именно: существует результат в теории информации для определения способности системы связи таким образом, что ее восприимчивость к возмущающим помехам сведена к минимуму. Это известно как метод стандартизации свойств импульсов. Техника импульсно-кодовой модуляции была открыта в 1930-х годах, но ее теоретические принципы были установлены лишь позднее. Символический язык, используемый в живых нервных системах, в точности соответствует теоретическому идеалу свободной от помех коммуникации. Невозможно улучшить это окончательное уточнение импульсно-кодовой модуляции, и недостаток уменьшенной пропускной способности более чем компенсируется повышением безопасности. Таким образом, монотонность символического языка нервной системы убедительно доказывает, что она выражает максимально возможную свободу от вмешательства. Таким образом, с помощью новых понятий теории информации можно было бы понять очень интересный фундаментальный феномен физиологии».

Теперь должно быть ясно, что теория информации Шеннона очень важна для оценки процессов передачи сообщений, но что касается самого сообщения, то оно может сказать только что-то о его статистических свойствах и ничего о сущностной природе информации. Это его реальное слабое место, а также присущая ему склонность приводить к недоразумениям. Немецкий кибернетик Бернхард Хассенштейн справедливо критикует его в следующих словах: «Было бы лучше изобрести искусственный термин, а не брать обычное слово и придавать ему совершенно новое значение». Если мы ограничим информацию Шеннона одним из пяти аспектов информации, то мы получим научно обоснованное решение. Без расширения на другие четыре уровня информации, мы застряли со свойствами канала передачи. Никакая наука, кроме коммуникационных технологий, не должна ограничиваться только статистическим уровнем информации.

Естественные языки могут быть проанализированы и сравнены статистически с помощью теории Шеннона, что мы сейчас и сделаем.

A1.4 статистический анализ языка

С помощью теории информации Шеннона можно вычислить определенные количественные характеристики языков. Одним из примеров такого свойства является среднее информационное содержание буквы, слога или слова. В уравнении (9) это числовое значение обозначается через H, энтропию.

1. Буквы: если для простоты мы предположим, что все 26 букв плюс пробел между словами встречаются с одинаковой частотой, то мы имеем:

H0 = lb 27 = log 27 / log 2 = 4,755 бит / буква (11)

Известно, что частота встречаемости различных букв характерна для исследуемого нами языка. Вероятность pі появления отдельных букв и пробел приведены для английского и немецкого языков в таблице 1, а также среднее информационное содержание на букву H. При применении уравнения (9) к различным частотам букв Pі в немецком языке среднее информационное содержание (= энтропия) символа задается формулой:

30 H1= ∑ pі x lb (1/pі) = 4,112 95 бит / буква i=1 (12)

Соответствующее значение для английского языка H1 = 4,04577 бит на букву. Мы знаем, что вероятность одной буквы не зависит от соседних букв. обычно следует за u, а в немецком языке следует за гораздо чаще, чем c или z. Если мы также рассмотрим частоту пар букв (биграмм) и триплетов (триграмм) и т. д., как указано в таблице 4, то информационное содержание, как определено Шенноном, статистически уменьшается из-за связей между буквами, и мы имеем:

Н> Н> Н> Н> Н> ... > (13)

С 26 буквами число возможных биграмм составляет 262 = 676, и может быть 263 - 26 = 17 550 триграмм, так как три одинаковых буквы никогда не являются последовательными. Принимая во внимание все статистические условия, Kюпфмюллер получил следующее значение для немецкого языка:

H = 1,6 бит / буква (14)

Для данного языка фактическое значение H0 намного ниже максимального значения энтропии. Разность между максимально возможным значением Hmax и фактической энтропией H, называется избыточностью R. относительная избыточность вычисляется следующим образом:

r = ( Hmax - H ) / Hmax (15)

Для письменного немецкого языка r задается формулой (4,755 – 1,6)/4,755 = 66%. Бриллюэн получил следующие значения энтропии для английского языка:

H1 = 4,03 бит / буква

H2 = 3,32 бит / буква

H3 = 3,10 бит / буква

H = 2,14 бит / буква

Мы находим, что относительная избыточность для английского языка, r = (4,755 – 2,14)/4,755 = 55% меньше, чем для немецкого. На рисунке 32 избыточность языка обозначена позициями различных точек.

В языках обычно используют больше слов, чем действительно требуется для полного понимания. В случае помех достоверность приема повышается, поскольку сообщения обычно содержат некоторую избыточность (например, неразборчиво написанные слова, потеря сигналов в случае телеграфного сообщения или когда слова не произносятся должным образом).

2. Слоги. Статистический анализ частот немецких слогов привел к следующему значению энтропии при учете частоты их встречаемости:

Hsyll = 8,6 бит / слог (16)

Среднее количество букв на слог составляет 3,03, так что

Н3 = 8,6/3,03 = 2,84 бит/буква. (17)

Рисунок 36: частотные распределения p(і) для различных языков, из которых можно вывести среднее число слогов в слове. При исследовании достаточно длинного текста на языке обнаруживается характерная частота количества слогов в слове. Для многих языков чаще всего встречаются односложные слова (например, английский, немецкий и греческий), но для других языков чаще всего встречаются двухсложные слова (например, латинский, арабский и турецкий). (p(і) — относительная частота встречаемости слов, состоящих из i слогов; i = среднее число слогов в слове.)

В. Фукс исследовал количество слогов в слове и нашел интересные частотные распределения, которые определяют характерные значения для разных языков.

Среднее число слогов в слове показано на рисунке 36 для некоторых языков. Эти частотные распределения были получены из художественных текстов. Мы можем найти небольшие различия в различных книгах, но общий результат не меняется. В английском языке 71,5% всех слов являются односложными, 19,4% — двусложными; 6,8% состоят из трех слогов, 1,6%  — из четырех и т. д. Соответствующие значения для немецкого языка: 55,6%, 30,8%, 9,38%, 3,35%, 0,71%, 0,14%, 0,2%, и 0,01%.

Для английского, немецкого и греческого языков распределение частот достигает максимума в одном слоге, но модус для арабского, латинского и турецкого языков — два слога (рис.36). На рисунке 37 энтропия HSHsyllable строится по отношению к среднему числу слогов в слове для различных языков. Из исследуемых языков английский имеет наименьшее количество слогов в слове, а именно 1,4064, за ним следуют немецкий (1,634), эсперанто (1,895), арабский (2,1036), греческий (2,1053) и др. Средние значения ординат для слоговой энтропии слогов разных языков были найдены с помощью уравнения (9), но следует отметить, что вероятности появления односложных, двусложных и др. слов были использованы для рі. Значение Hsyllable = 1,51, найденное для немецкого языка, не следует сравнивать со значением, полученным из уравнения (16), поскольку используется другой метод вычисления.

Рисунок 37: статистические характеристики различных языков. Используя уравнение 9, мы можем рассчитать среднее содержание информации на слог, HS, для данного языка. Это значение свойственно языку, и при построении графиков различных значений мы получаем распределение, показанное на этой диаграмме.

3. Слова. Статистические исследования немецкого языка показали, что половина всего письменного текста состоит только из 322 слов. Используя эти слова, из уравнения (9) следует, что слово энтропия, word = 4,5 бит/слово. Когда рассматриваются только 16 наиболее часто используемых слов, которые уже составляют 20% текста, word оказывается равным 1,237 бит/слово. Когда все слова рассматриваются, мы получаем приблизительно 1,6 бит/буква, как указано в уравнении (14). Средняя длина немецких слов составляет 5,53 буквы, так что среднее информационное содержание составляет 5,53 х 1,6 = 8,85 бит/слово.

Теперь должно быть ясно, что некоторые характеристики языка могут быть описаны в терминах значений, полученных из теории информации Шеннона. Эти значения носят чисто статистический характер и ничего не говорят нам о грамматике языка или содержании текста. Точно так же, как эффективный ток Ieff постоянно изменяющегося электрического входа (например, в качестве управляющего параметра в сложном технологическом эксперименте) может быть вычислен как статистическая характеристика, можно также установить аналогичные лингвистические свойства для языков. Точно так же, как Ieff ничего не может сказать о базовых концепциях управления, так и такие лингвистические характеристики не имеют семантической значимости.

A1.5 Статистический синтез языка

После рассмотрения статистических анализов языков в предыдущем разделе возникает вопрос, Можно ли было бы генерировать чисто случайные комбинации символов:

а) правильные предложения на данном языке

б) информация (в самом полном смысле этого понятия)

Рисунок 38: эксперименты «синтез языка» для определения того, может ли информация возникнуть случайно. Последовательности букв, слогов и слов (включая пробелы) получаются с помощью компьютерных программ. В качестве входных данных использовались буквы, все сочетания букв, слоги и слова (полный немецкий лексикон). Их известные частоты встречаемости в немецких текстах полностью учтены в этом «языковом синтезе». Результирующие случайные последовательности от А до Я не содержат информации, несмотря на значительные усилия по программированию. Эти последовательности являются семантической бессмыслицей и не соответствуют ни одному аспекту реальности.

Наша отправная точка — рис. 38. Случайные последовательности символов могут быть получены с помощью компьютерной программы (1). Когда буквы могут встречаться с одинаковой частотой, то получаются последовательности букв (вывод А на рис. 38), которые совсем не отражают простейших статистических характеристик немецкого, английского или любого другого языка. С точки зрения статистики, мы никогда не получим текст, который хотя бы приблизительно напоминал бы морфологические свойства данного языка.

Можно пойти еще дальше, написав программу (2), которая учитывает фактическую частоту буквосочетаний языка (в данном случае немецкого). Может случиться так, что статистические связи между последовательными буквами будут проигнорированы, так что мы получим приближение первого порядка. Пример такой последовательности, приведенный Карлом Кюпфмюллером, приведен в качестве результата B, но ни одно известное слово не генерируется. Если мы теперь обеспечим учет вероятностей связей между последовательными буквами, то получим выходы C, D и E. Такие последовательности могут быть найдены с помощью стохастических марковских процессов и называются марковскими цепями.

Программа (2) требует обширных входных данных, которые принимают все группы букв (биграммы, триграммы и т. д.) с учетом, а также их вероятности появления на немецком языке. С увеличением упорядоченности возникают синтетические слова, некоторые из которых можно распознать как немецкие слова, но такие структуры, как «gelijkwaardig», «ryljetek» и «случайность», все больше исключаются из программирования. Более того, только подмножество морфологически типичных немецких звучащих групп, таких как WONDINGLIN, ISAR, ANORER, GAN, STEHEN и DISPONIN, являются настоящими немецкими словами. Даже в случае аппроксимаций более высокой степени нельзя предотвратить образование слов, которые вообще не существуют в речевом употреблении.

Следующим шагом будет программа (3), в которой используются только фактические немецкие слоги и их частота встречаемости. Затем, в заключение, программа (4) предотвращает генерацию групп букв, которые не встречаются в немецком языке. Такая программа требует сохранения полного словаря, и частоты слов также учитываются (первое приближение). В качестве второго приближения также рассматривается вероятность того, что одно слово следует за другим. Следует отметить, что задействованные программы, а также объемные требования к данным содержат много идей, но даже в этом случае результаты столь же скудны, как и однозначны: во всех этих случаях мы получаем «тексты», которые могут быть морфологически правильными, но являются семантической бессмыслицей.

Слово — это не просто последовательность букв, но оно имеет номенклатурную функцию, которая относится к определенному объекту (например, Ричард Львиное Сердце, Маттерхорн или Лондон) или классу объектов (животное, автомобиль или церковь) в соответствии с конвенциями языка. Каждый язык имеет свои собственные соглашения об именовании для одного и того же объекта, как, например, «HOUSE/дом», немецкий «HAUS», испанский «CASA», французский «MAISON» и финский «TALON». Кроме того, одно слово также имеет значение в узком смысле этого слова.

С другой стороны, предложение описывает ситуацию, условие или событие, т. е. предложение имеет общий смысл. Он состоит из различных отдельных слов, но значение предложения включает в себя больше, чем просто последовательную цепочку значений слов. Отношения между смыслом предложения и значениями слов, которые оно содержит, представляют собой семантическую проблему, которая может быть исследована только в рамках тонко затененных значений языковых конвенций, существующих между отправителем и получателем сообщения.

Вывод: несмотря на то, что используются полные наборы буквенных групп, слогов и слов, а также их ранее установленные частотные распределения, статистически полученные тексты, генерируемые различными системами программирования, не имеют решающих критериев, которые гарантировали бы, что последовательность букв содержит реальное сообщение. Следующие критерии должны быть выполнены, прежде чем последовательности символов может быть присвоен статус информации (сообщения):

1. Значение, присвоенное отправителем: набор символов должен быть передан отправителем и должен быть направлен на получателя. (Если бы описанный процесс действительно генерировал последовательность букв типа «Я люблю тебя», я смог бы понять текст, но это все равно не информация, поскольку она не была передана кем-то, кто любит меня.)

2. Истина, основанная на реальности: набор символов должен содержать действительную истину, относящуюся к реальному миру. (Если статистический процесс может привести к такому предложению, как «Париж — столица Франции», это правильно и верно, но оно не имеет практического значения, потому что оно не основано на реальном опыте.)

3. Распознаваемое намерение: последовательность символов должна быть целенаправленно интенциональной, т. е. она должна быть концептуализирована отправителем.

4. Ориентирован на получателя: последовательность символов должна быть адресована или направлена на кого-то. (Когда отправляется письмо или телеграмма, отправитель имеет в виду вполне определенного получателя; книга имеет определенную специфическую читательскую аудиторию; когда пчела исполняет пищевой танец, важная информация передается другим пчелам в улье; информация ДНК передается на РНК, которая затем приводит к синтезу белка.) Ориентация на реципиента также задействована, даже когда помимо предполагаемого реципиента есть еще и целевая аудитория (например, непреднамеренное прослушивание разговора в купе поезда).

Теорема А2: случайные последовательности букв или последовательности, полученные статистическими процессами, не содержат информации. Даже если содержание информации может быть рассчитано в соответствии с теорией Шеннона, реальная природа информации по-прежнему игнорируется.

В исторических дебатах в Оксфорде в 1860 году между Сэмюэлем Уилберфорсом (1805-1873) и дарвинистом Томасом Хаксли (1825-1895) последний заявил, что если обезьяны будут беспорядочно стучать на пишущих машинках в течение достаточно долгого времени, то рано или поздно они напечатают псалом 23. Хаксли использовал этот аргумент, чтобы доказать, что жизнь могла возникнуть случайно, но этот вопрос легко решается с помощью информационных теорем. Из теорем, упомянутых ранее, и теоремы А2 следует, что информация здесь вообще не участвует. Сравнение, на которое ссылается Хаксли, не имеет никакого отношения ни к информации, ни к жизни. Свойства информации, показывают, что Хаксли говорил о случайных последовательностях, но информация не была вовлечена в этот аргумент о типизации обезьян. Информация не может возникнуть в материи в результате случайных процессов (см. теорему 1).

На вопросы а) и б), поднятые выше, теперь можно ответить однозначно:

— Синтезировать с помощью статистического процесса правильные предложения, подчиняющиеся условностям данного языка, можно только в том случае, если необходимые знания заранее включены в данные (допустимые морфемы, слоги и слова) и в программы. Эти программы требуют огромных усилий, и тогда даже можно создавать предложения, которые подчиняются синтаксическим правилам языка. Даже если какой-то смысл может быть приписан последовательности слов, полученных таким образом, он все равно не может рассматриваться как имеющий «качество сообщения», потому что он возник в случайном процессе.

— Статистические процессы не могут генерировать реальную информацию или реальные сообщения.


Автор: доктор Вернер Гитт

Дата публикации: 18 июня 2009 года

Источник: Answers In Genesis


Перевод: Недоступ А.

Редактор: Недоступ А.


Ссылки:

1. Сообщение: в теории Шеннона сообщение не обязательно имеет смысл, но оно относится к символу (например, букве) или последовательности символов (например, слову). В этом смысле понятие «сообщение» даже включено в систему стандартов DIN, где оно кодируется как 44 300: «Символы и непрерывные функции, используемые для передачи, которые представляют информацию в соответствии с известными или предполагаемыми соглашениями».

2. Значение ожидания: значение ожидания E — это понятие, которое определяется для случайных величин в исчислении вероятностей. Сумма ∑ pk x g (xk), взятая по всем k единичным значениям, называется ожидаемым значением распределения вероятностей, где g (x) —  заданное дискретное распределение с xk  в виде абсцисс и pk в виде ординат (= вероятность появления значений xk). Это значение также известно как среднее значение или математическая надежда.

3. Энтропия: это понятие было впервые введено в термодинамику Рудольфом Клаузиусом около 1850 года. Позже, в 1877 году, Людвиг Больцман (1844-1906) показал, что энтропия пропорциональна логарифму вероятности нахождения системы в определенном состоянии. Поскольку формальный вывод математических формул для физической энтропии аналогичен уравнению (9), Шеннон (1948) также назвал эту величину энтропией. К сожалению, использование одного и того же термина для обозначения таких принципиально различных явлений привело ко многим ошибочным выводам. Когда второй закон термодинамики, который также известен как теорема энтропии, легкомысленно применяется к информационной концепции Шеннона, это только вызывает путаницу. В термодинамике энтропия зависит от температуры, чего никак нельзя сказать об информационной энтропии.

4. Длина слова: набор битов, который обрабатывается как единица, называется «слово». Диапазон чисел, которые могут быть обработаны, а также количество мест хранения данных, которые могут быть адресованы, зависит от длины и структуры слова.



Написать коментарий