Различие между SD и RMSE

Vit Nhoc · Сообщение **Vit Nhoc** » Вт ноя 15, 2022 10:13 am

вините если я задаю ламерские вопросы. Origin для линейной корреляции считает некое sd - это standard deviation для y? И оно не равно root-mean-square error? Имеет ли смысл для каких-то задач считать standard deviation для x? И уж совсем простой вопрос - правильно ли я понимаю, что mean absolute error можно считать только через дополнительный цикл, не по формулам?
И ещё вопрос в тему - почему в научных статьях раньше писали RMSE, а теперь пишут MAE?
root-mean-square error это, как я понимаю, корень из усреднённого квадрата разницы между Yi и "идеальным" Yi, т.е. положением точки на линии построенной линейной корреляции для текущего Xi. Всё правильно?

Commander L · Сообщение **Commander L** » Вт ноя 15, 2022 1:42 pm

Можете результаты расчета выложить? Так не шибко понятно о чем речь, а Origin'а у меня нет.
Речь же о линейной регрессии, верно? Или Вы просто считаете коэффициент корреляции Пирсона?

bigM · Сообщение **bigM** » Вт ноя 15, 2022 9:18 pm

один показатель используется для параметрических вычислений, другой - для непараметрических

Vit Nhoc · Сообщение **Vit Nhoc** » Ср ноя 16, 2022 1:10 pm

Commander L писал(а): ↑
Вт ноя 15, 2022 1:42 pm
Можете результаты расчета выложить? Так не шибко понятно о чем речь, а Origin'а у меня нет.
Речь же о линейной регрессии, верно? Или Вы просто считаете коэффициент корреляции Пирсона?

Ну вот пример. Набор X:

1211,00509
1165,88807
1206,25244
1210,99671
1193,66046

Набор Y:

4,756
0,5
4,31
4,664
2,84

Строю корреляцию, получаю R=0.997709174712545. Эту цифру выдаёт и Origin, и моя программа Chemcraft, коэффициенты A и B тоже совпадают. Ещё Origin выдаёт SD 0,14075, а моя программа RMSE 0.109027003441138 и MAE 0.0891256510106251. Хотелось бы понять, что такое SD (standard deviation) и как его считать.
Я ещё обнаружил, что если поменять x и y, коэффициенты получатся немного другими (в смысле, что например коэффициенты B будут не строго обратны друг другу). Так и должно быть?

bigM · Сообщение **bigM** » Ср ноя 16, 2022 4:45 pm

картинка

график.jpg

обратный график

обр график.jpg

Vit Nhoc · Сообщение **Vit Nhoc** » Ср ноя 16, 2022 4:53 pm

Мне по-прежнему непонятно, что такое SD и как оно считается.

Сообщение **Cherep** » Ср ноя 16, 2022 5:27 pm

А мануал что говорит, как они его определяют?

bigM · Сообщение **bigM** » Ср ноя 16, 2022 7:07 pm

Vit Nhoc писал(а): ↑
Ср ноя 16, 2022 4:53 pm
Мне по-прежнему непонятно, что такое SD и как оно считается.

квадратный корень из дисперсии

Vit Nhoc · Сообщение **Vit Nhoc** » Ср ноя 16, 2022 7:39 pm

bigM писал(а): ↑
Ср ноя 16, 2022 7:07 pm

Vit Nhoc писал(а): ↑
Ср ноя 16, 2022 4:53 pm
Мне по-прежнему непонятно, что такое SD и как оно считается.
квадратный корень из дисперсии

А как считается дисперсия, что это такое?

bigM · Сообщение **bigM** » Ср ноя 16, 2022 8:48 pm

https://statanaliz.info/statistica/opis ... variatsii/

Vit Nhoc · Сообщение **Vit Nhoc** » Чт ноя 17, 2022 9:47 am

bigM писал(а): ↑
Ср ноя 16, 2022 8:48 pm
https://statanaliz.info/statistica/opis ... variatsii/

Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Формула дисперсии в теории вероятностей
То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?

Sartorius84 · Сообщение **Sartorius84** » Чт ноя 17, 2022 11:07 am

Vit Nhoc писал(а): ↑
Чт ноя 17, 2022 9:47 am
Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?

Для регрессии же считаются отклонения не от среднего, а от функциональной зависимости: для линейной регрессии - от прямой.

Vit Nhoc · Сообщение **Vit Nhoc** » Чт ноя 17, 2022 12:34 pm

Sartorius84 писал(а): ↑
Чт ноя 17, 2022 11:07 am

Vit Nhoc писал(а): ↑
Чт ноя 17, 2022 9:47 am
Я это не понимаю. Если взять выборку: x=1,2,3,4,5; y=1,2,3,4,5. Origin выдаёт SD=0. В то же время если считать дисперсию как математическое ожидание отклонений от математического ожидания, оно должно быть ненулевым. Т.е. среднее y в данном случае 3, отклонения y от 3 в среднем около 1. Может на страничке неправильно написано?
Для регрессии же считаются отклонения не от среднего, а от функциональной зависимости: для линейной регрессии - от прямой.

Тогда я не понимаю, чем отличается дисперсия от среднеквадратичного отклонения (root mean square error).

Sartorius84 · Сообщение **Sartorius84** » Чт ноя 17, 2022 1:27 pm

https://www.originlab.com/doc/Origin-He ... E_.28SD.29
$Изображение$
$Изображение$
На n-2 они делят Получается 0,14075 тогда, да

Vit Nhoc · Сообщение **Vit Nhoc** » Чт ноя 17, 2022 2:41 pm

Sartorius84 писал(а): ↑
Чт ноя 17, 2022 1:27 pm
https://www.originlab.com/doc/Origin-He ... E_.28SD.29
$Изображение$
$Изображение$
На n-2 они делят Получается 0,14075 тогда, да

Спасибо, теперь вроде сошлось. У меня такой вопрос: какую всё-таки величину ошибки корректно писать в статье, если речь именно о корреляциях?
Квантовая химия обычно плохо напрямую считает величины, но можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества. Для корреляции можно приводить SD, или RMSE, или MAE. Насколько корректно вообще давать второе или третье, раз у нас именно корреляция и не спроста число точек для пересчёта SD сокращается? Т.е. ясно что если корреляции использовать для предсказаний, то величины RMSE или MAE, которые получились по известным точками, немного меньше реальной ошибки, т.к. параметры корреляции A и B тоже сосчитались с небольшой ошибкой.

Sartorius84 · Сообщение **Sartorius84** » Чт ноя 17, 2022 3:04 pm

Vit Nhoc писал(а): ↑
Чт ноя 17, 2022 2:41 pm
Спасибо, теперь вроде сошлось. У меня такой вопрос: какую всё-таки величину ошибки корректно писать в статье, если речь именно о корреляциях?
Квантовая химия обычно плохо напрямую считает величины, но можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества. Для корреляции можно приводить SD, или RMSE, или MAE. Насколько корректно вообще давать второе или третье, раз у нас именно корреляция и не спроста число точек для пересчёта SD сокращается? Т.е. ясно что если корреляции использовать для предсказаний, то величины RMSE или MAE, которые получились по известным точками, немного меньше реальной ошибки, т.к. параметры корреляции A и B тоже сосчитались с небольшой ошибкой.

Нагляднее всего доверительный интервал наверно, как у bigM на картинках. А из скаляров MAE IMHO проще воспринимать. Но под требования журнала с большой вероятностью придется подстраиваться.

bigM · Сообщение **bigM** » Чт ноя 17, 2022 4:54 pm

дисперсия может быть в распределении переменной, но не в коэффициенте корреляции. для него значимы доверительный интервал и р-уровень

bigM · Сообщение **bigM** » Чт ноя 17, 2022 5:25 pm

Vit Nhoc писал(а): ↑
Чт ноя 17, 2022 2:41 pm
...можно строить корреляции между рассчитанными и экспериментальными параметрами (в моём случае - pK), и далее расширять эти корреляции на новые вещества.

тут строится график квантиль -квантиль (отношение разностей предыдущей переменной к последующей)

Vit Nhoc · Сообщение **Vit Nhoc** » Чт дек 15, 2022 5:26 pm

Sartorius84 писал(а): ↑
Чт ноя 17, 2022 3:04 pm
Нагляднее всего доверительный интервал наверно, как у bigM на картинках. А из скаляров MAE IMHO проще воспринимать. Но под требования журнала с большой вероятностью придется подстраиваться.

Я взялся сделать подсчёт доверительного интервала для линейного фита, и сходу не нашёл формул:

https://en.wikipedia.org/wiki/Confidence_interval

Есть набор ошибок - отличие Yi от (AXi+B). Подскажите, как посчитать confidence interval для 95% и 99%?

Commander L · Сообщение **Commander L** » Чт дек 15, 2022 8:40 pm

Для случая нормального распределения через коэффициент Стьюдента в каждой точке графика.
Для других случаев - копать в сторону неравенств Берри-Эссеена, например.

Здесь, например, п. 2.4.3.

Форум химиков

Различие между SD и RMSE

Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Re: Различие между SD и RMSE

Кто сейчас на конференции