Различие между SD и RMSE

здесь можно обсудить кошечек и ёжиков
Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Различие между SD и RMSE

Сообщение Vit Nhoc » Вт ноя 15, 2022 10:13 am

вините если я задаю ламерские вопросы. Origin для линейной корреляции считает некое sd - это standard deviation для y? И оно не равно root-mean-square error? Имеет ли смысл для каких-то задач считать standard deviation для x? И уж совсем простой вопрос - правильно ли я понимаю, что mean absolute error можно считать только через дополнительный цикл, не по формулам?
И ещё вопрос в тему - почему в научных статьях раньше писали RMSE, а теперь пишут MAE?
root-mean-square error это, как я понимаю, корень из усреднённого квадрата разницы между Yi и "идеальным" Yi, т.е. положением точки на линии построенной линейной корреляции для текущего Xi. Всё правильно?

Аватара пользователя
Commander L
Сообщения: 2319
Зарегистрирован: Вс ноя 11, 2012 4:00 pm

Re: Различие между SD и RMSE

Сообщение Commander L » Вт ноя 15, 2022 1:42 pm

Можете результаты расчета выложить? Так не шибко понятно о чем речь, а Origin'а у меня нет.
Речь же о линейной регрессии, верно? Или Вы просто считаете коэффициент корреляции Пирсона?
Alea jacta est.
"О, утраченный, ветром оплаканный призрак! Вернись!! Вернись!!" Т.Вулф
"Я боюсь стать таким, как взрослые, которым ничто не интересно, кроме цифр." А. де Сент-Экзюпери

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Вт ноя 15, 2022 9:18 pm

один показатель используется для параметрических вычислений, другой - для непараметрических
Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Ср ноя 16, 2022 1:10 pm

Commander L писал(а):
Вт ноя 15, 2022 1:42 pm
Можете результаты расчета выложить? Так не шибко понятно о чем речь, а Origin'а у меня нет.
Речь же о линейной регрессии, верно? Или Вы просто считаете коэффициент корреляции Пирсона?
Ну вот пример. Набор X:

1211,00509
1165,88807
1206,25244
1210,99671
1193,66046

Набор Y:

4,756
0,5
4,31
4,664
2,84

Строю корреляцию, получаю R=0.997709174712545. Эту цифру выдаёт и Origin, и моя программа Chemcraft, коэффициенты A и B тоже совпадают. Ещё Origin выдаёт SD 0,14075, а моя программа RMSE 0.109027003441138 и MAE 0.0891256510106251. Хотелось бы понять, что такое SD (standard deviation) и как его считать.
Я ещё обнаружил, что если поменять x и y, коэффициенты получатся немного другими (в смысле, что например коэффициенты B будут не строго обратны друг другу). Так и должно быть?

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Ср ноя 16, 2022 4:45 pm

картинка
график.jpg
обратный график
обр график.jpg
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Ср ноя 16, 2022 4:53 pm

Мне по-прежнему непонятно, что такое SD и как оно считается.

Cherep
Сообщения: 23303
Зарегистрирован: Чт окт 30, 2003 9:22 am

Re: Различие между SD и RMSE

Сообщение Cherep » Ср ноя 16, 2022 5:27 pm

А мануал что говорит, как они его определяют?

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Ср ноя 16, 2022 7:07 pm

Vit Nhoc писал(а):
Ср ноя 16, 2022 4:53 pm
Мне по-прежнему непонятно, что такое SD и как оно считается.
квадратный корень из дисперсии
Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Ср ноя 16, 2022 7:39 pm

bigM писал(а):
Ср ноя 16, 2022 7:07 pm
Vit Nhoc писал(а):
Ср ноя 16, 2022 4:53 pm
Мне по-прежнему непонятно, что такое SD и как оно считается.
квадратный корень из дисперсии
А как считается дисперсия, что это такое?

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Ср ноя 16, 2022 8:48 pm

Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Чт ноя 17, 2022 9:47 am

bigM писал(а):
Ср ноя 16, 2022 8:48 pm
https://statanaliz.info/statistica/opis ... variatsii/
Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Формула дисперсии в теории вероятностей
То есть дисперсия — это математическое ожидание отклонений от математического ожидания.
Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?

Sartorius84
Сообщения: 1149
Зарегистрирован: Ср фев 26, 2014 11:22 am

Re: Различие между SD и RMSE

Сообщение Sartorius84 » Чт ноя 17, 2022 11:07 am

Vit Nhoc писал(а):
Чт ноя 17, 2022 9:47 am
Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?
Для регрессии же считаются отклонения не от среднего, а от функциональной зависимости: для линейной регрессии - от прямой.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Чт ноя 17, 2022 12:34 pm

Sartorius84 писал(а):
Чт ноя 17, 2022 11:07 am
Vit Nhoc писал(а):
Чт ноя 17, 2022 9:47 am
Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?
Для регрессии же считаются отклонения не от среднего, а от функциональной зависимости: для линейной регрессии - от прямой.
Тогда я не понимаю, чем отличается дисперсия от среднеквадратичного отклонения (root mean square error).

Sartorius84
Сообщения: 1149
Зарегистрирован: Ср фев 26, 2014 11:22 am

Re: Различие между SD и RMSE

Сообщение Sartorius84 » Чт ноя 17, 2022 1:27 pm

https://www.originlab.com/doc/Origin-He ... E_.28SD.29
Изображение
Изображение
На n-2 они делят Получается 0,14075 тогда, да

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Чт ноя 17, 2022 2:41 pm

Sartorius84 писал(а):
Чт ноя 17, 2022 1:27 pm
https://www.originlab.com/doc/Origin-He ... E_.28SD.29
Изображение
Изображение
На n-2 они делят Получается 0,14075 тогда, да
Спасибо, теперь вроде сошлось. У меня такой вопрос: какую всё-таки величину ошибки корректно писать в статье, если речь именно о корреляциях?
Квантовая химия обычно плохо напрямую считает величины, но можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества. Для корреляции можно приводить SD, или RMSE, или MAE. Насколько корректно вообще давать второе или третье, раз у нас именно корреляция и не спроста число точек для пересчёта SD сокращается? Т.е. ясно что если корреляции использовать для предсказаний, то величины RMSE или MAE, которые получились по известным точками, немного меньше реальной ошибки, т.к. параметры корреляции A и B тоже сосчитались с небольшой ошибкой.

Sartorius84
Сообщения: 1149
Зарегистрирован: Ср фев 26, 2014 11:22 am

Re: Различие между SD и RMSE

Сообщение Sartorius84 » Чт ноя 17, 2022 3:04 pm

Vit Nhoc писал(а):
Чт ноя 17, 2022 2:41 pm
Спасибо, теперь вроде сошлось. У меня такой вопрос: какую всё-таки величину ошибки корректно писать в статье, если речь именно о корреляциях?
Квантовая химия обычно плохо напрямую считает величины, но можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества. Для корреляции можно приводить SD, или RMSE, или MAE. Насколько корректно вообще давать второе или третье, раз у нас именно корреляция и не спроста число точек для пересчёта SD сокращается? Т.е. ясно что если корреляции использовать для предсказаний, то величины RMSE или MAE, которые получились по известным точками, немного меньше реальной ошибки, т.к. параметры корреляции A и B тоже сосчитались с небольшой ошибкой.
Нагляднее всего доверительный интервал наверно, как у bigM на картинках. А из скаляров MAE IMHO проще воспринимать. Но под требования журнала с большой вероятностью придется подстраиваться.

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Чт ноя 17, 2022 4:54 pm

дисперсия может быть в распределении переменной, но не в коэффициенте корреляции. для него значимы доверительный интервал и р-уровень
Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
bigM
Сообщения: 4949
Зарегистрирован: Ср фев 15, 2017 2:05 am

Re: Различие между SD и RMSE

Сообщение bigM » Чт ноя 17, 2022 5:25 pm

Vit Nhoc писал(а):
Чт ноя 17, 2022 2:41 pm
...можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества.
тут строится график квантиль -квантиль (отношение разностей предыдущей переменной к последующей)
Не красота спасёт мир, а транквилизаторы.

Аватара пользователя
Vit Nhoc
Сообщения: 1135
Зарегистрирован: Сб июн 06, 2015 12:28 pm

Re: Различие между SD и RMSE

Сообщение Vit Nhoc » Чт дек 15, 2022 5:26 pm

Sartorius84 писал(а):
Чт ноя 17, 2022 3:04 pm
Нагляднее всего доверительный интервал наверно, как у bigM на картинках. А из скаляров MAE IMHO проще воспринимать. Но под требования журнала с большой вероятностью придется подстраиваться.
Я взялся сделать подсчёт доверительного интервала для линейного фита, и сходу не нашёл формул:

https://en.wikipedia.org/wiki/Confidence_interval

Есть набор ошибок - отличие Yi от (AXi+B). Подскажите, как посчитать confidence interval для 95% и 99%?

Аватара пользователя
Commander L
Сообщения: 2319
Зарегистрирован: Вс ноя 11, 2012 4:00 pm

Re: Различие между SD и RMSE

Сообщение Commander L » Чт дек 15, 2022 8:40 pm

Для случая нормального распределения через коэффициент Стьюдента в каждой точке графика.
Для других случаев - копать в сторону неравенств Берри-Эссеена, например.

Здесь, например, п. 2.4.3.
Alea jacta est.
"О, утраченный, ветром оплаканный призрак! Вернись!! Вернись!!" Т.Вулф
"Я боюсь стать таким, как взрослые, которым ничто не интересно, кроме цифр." А. де Сент-Экзюпери

Ответить

Вернуться в «лицом к лицу»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 14 гостей