JSON без BOM-кодировки

Автор: fixin · 12.04.2021

Веб-разработчик клиента пожаловался, что json-файл, который я передаю ему на FTP Bitrix-сайта, приходит в кодировке UTF с BOM.

Я проверил, действительно Notepad++ определяет его в такой кодировке:

Это легко проверить если открыть файл в двоичном виде (в Total Commander):

Как видно, в начале файла содержится 3 байта EF BB BF. Это и есть BOM-кодировка.

Нашел решение на инфостарте поиском.

В решении используется функция ЗаписьТекста:

Заменил ТекстовыйДокумент на ЗаписьТекста:

Лок_ИмяФайла = КаталогВременныхФайлов() + Строка(Новый УникальныйИдентификатор);

ТекстСопутствующих = Обработки.дор_РассчетСопутствующихДляСайта.РассчитатьВФайл();

УдалитьФайлы(Лок_ИмяФайла); //Не обязательно, у файла уникальное имя, но для общности
ЗаписьТекста = Новый ЗаписьТекста(Лок_ИмяФайла,КодировкаТекста.UTF8,,Ложь,Символы.ПС);
//Т = Новый ТекстовыйДокумент();
ЗаписьТекста.Записать(ТекстСопутствующих);
//Т.УстановитьТекст(ТекстСопутствующих);
//Т.Записать(Лок_ИмяФайла);
ЗаписьТекста.Закрыть();

Посмотрел в отладчике, в какой файл сохраняется временный файл: C:\Users\User\AppData\Local\Temp\50cfa3b5-8cf8-481d-aaa6-d0b2498d974d

Поиском нашел этот файл в каталоге:

Но увы, независимо от значения параметра Дописывать, 1С настойчиво добавляло BOM-кодировку:

Бюджет решения не позволялся углубляться в поиски, поэтому я сделал решение через ADODB.Stream, которое было написано в той же статье:

Лок_ИмяФайла = КаталогВременныхФайлов() + Строка(Новый УникальныйИдентификатор);
Лок_ИмяФайлаНач = Лок_ИмяФайла + «_Нач»;
ТекстСопутствующих = Обработки.дор_РассчетСопутствующихДляСайта.РассчитатьВФайл();

Т = Новый ТекстовыйДокумент();
Т.УстановитьТекст(ТекстСопутствующих);
Т.Записать(Лок_ИмяФайлаНач);

УбитьВОМ(Лок_ИмяФайлаНач, Лок_ИмяФайла);

…

Процедура УбитьВОМ(ИсходныйФайл,РезультирующийФайл)
Попытка
файл = Новый ComObject(«ADODB.Stream»);
файл.Mode = 3; // r/w
файл.Type = 1; //1-Binary, 2-Text
файл.Open();
файл.LoadFromFile(ИсходныйФайл);
файл.Position = 3;
текстБезБОМ = Новый ComObject(«ADODB.Stream»);
текстБезБОМ.Mode = 3; // r/w
текстБезБОМ.Type = 1; //1-Binary, 2-Text
текстБезБОМ.Open();
файл.CopyTo(текстБезБОМ);
файл.Close();
текстБезБОМ.SaveToFile(РезультирующийФайл,2);
текстБезБОМ.Close();
УдалитьФайлы(ИсходныйФайл);
Исключение
Сообщить(ОписаниеОшибки(),СтатусСообщения.Важное);
КонецПопытки;
КонецПроцедуры

Наконец у меня получился чистый UTF, без BOM:

Потом почитал, что метод через ЗаписьТекста работает не на всех режимах совместимости.

У меня была УТ11, релиз платформы 8.3.16.1502, режим совместимости 8.3.14.

Время факт: 0.5 час.

Метки: кодировки случай из практики 1с

fixin

Программирую на 1С с 1999 года. В 1С просто Гений. В 2020 году ушел из офиса на вольные хлеба фриланса. Принимаю заказы.

bob32:

12.04.2021 в 10:13

В данном случае тебе ничего не надо было делать. UTF-8 кодировка с BOM префиксом это полностью корректный формат. Программисту на другой стороне надо уметь такое парсить . На худой конец он может сам проверять префикс и выкидывать его.
Это пример того, когда программисты с обеих сторон не понимают спецификации форматов.

Ответить
Zuko:

12.04.2021 в 11:25

нашел несколько решений в интернете
понравилось про кодировку CESU-8
есть еще записывать сначала в ANSI, потом в UTF-8
думаю также потоки рулят

Ответить
Павел:

12.04.2021 в 12:34

В json bom запрещен. Программист прав. Ну а 1ц как обычно слегка обосралась

Ответить
- bob32:
  
  12.04.2021 в 12:42
  
  Есть UTF-8 кодировка текста как такового, где BOM разрешен. Есть то. что мы кодируем — JSON. Если имеем цепочку Reader-ов, то вопрос наличия BOM неважен. Low-level reader отрезает BOM и далее парсится уже обычный JSON.
  Проще не заморачиваться на наличие или отсутствие а банально проверять префикс и отрезать если надо.
  JSON может быть записан в тонну мест помимо файлов (тот же jsonb в постгре). Low-level reader извлекает то, что можем распарсить как JSON.
  
  Ответить
  - fixin:
    
    12.04.2021 в 13:19
    
    На Битрикс-сайте не смогли прочитать JSON с BOM. Попросили дать им без BOM.
    
    Ответить
    - fixin:
      
      12.04.2021 в 13:20
      
      Дьявол в деталях. 😉
      JSON — это чистый текст. А тут 3 нечитаемых внезапных символа. 😉
      Разработчики JSON не думали о каких-то BOMах. 😉
      
      Ответить
  - Павел:
    
    12.04.2021 в 14:21
    
    У json как не странно есть стандарт. Остальное все домыслы
    
    Ответить
    - bob32:
      
      12.04.2021 в 15:59
      
      Угу, и там сказано что реализации могут игнорить марк
      
      Implementations MUST NOT add a byte order mark (U+FEFF) to the
      beginning of a networked-transmitted JSON text. In the interests of
      interoperability, implementations that parse JSON texts MAY ignore
      the presence of a byte order mark rather than treating it as an
      error.
      
      В реальности лучше делать решения устойчивым к префиксу
      
      Ответить
      - fixin:
        
        13.04.2021 в 07:47
        
        Коллега, считаете, что кризис IT?
      - fajij28770:
        
        13.04.2021 в 14:16
        
        в таких спеках, обычно, дается точное определение терминов типа MUST NOT и MAY. двойного толкования тут быть не может. тут черным по белому написано, что имплементации, во-первых, сами не должны добавлять BOM отметку в JSON, а во-вторых, не обязаны ее обрабатывать, если какая-то глупая имплементация это все-таки сделала.
      - fajij28770:
        
        13.04.2021 в 14:30
        
        в реальности BOM из UTF надо выжигать калёным железом, потому что это deprecated ерунда
Zuko:

12.04.2021 в 12:58

Как насчет объекта ЗаписьJSON и метода ЗаписатьJSON?

Ответить
- fixin:
  
  12.04.2021 в 13:19
  
  Да, можно, тем более что у метода ОткрытьФайл есть параметр ДобавлятьBOM.
  Но у меня нужно было готовую строку записать в файл. Можно конечно было бы посмотреть, как отработает метод ЗаписатьБезОбработки(<Строка>).
  Но что-то мне не захотелось это исследовать.
  
  Ответить
fajij28770:

13.04.2021 в 14:29

Странно, конечно, что в глупом 1с нет из коробки возможности работать с бинарными файлами и надо какие-то внешние компоненты использовать.

>файл.Mode = 3; // r/w

зачем на write открывать файл, который только читаешь? я, конечно, все понимаю, stackoverflow-driven development, все деоа, но хотя бы немного вникать в то, что копипейстишь надо

Ответить
- Zuko:
  
  14.04.2021 в 00:39
  
  Есть. Работа через потоки.
  
  Ответить
  - fajij28770:
    
    14.04.2021 в 16:50
    
    тогда не понятно, зачем автор потратил столько времени на поиски «готового решения», когда за две минуты можно написать копирование файла без первых трех байтов
    
    Ответить
    - fixin:
      
      15.04.2021 в 07:33
      
      как раз две минуты я потратил на поиск решения, тестирование и проверка такого рода кода займут 10-15 минут. У вас что-то не то с оценками времени.
      
      Ответить
      - fajij28770:
        
        15.04.2021 в 19:49
        
        специально для тебя завел таймер — 1 минута 47 секунд (включая тестовую прогонку):
        def copy_skipped(path_in, path_out, skip=3):
        with open(path_in, ‘rb’) as file_in:
        with open(path_out, ‘wb’) as file_out:
        file_in.seek(skip)
        file_out.write(file_in.read())
        
        if __name__ == ‘__main__’:
        copy_skipped(‘1.txt’, ‘2.txt’)
        
        >как раз две минуты я потратил на поиск решения, тестирование и проверка такого рода кода займут 10-15 минут
        во-первых, непонятно, чем тестирование самописного кода будет отличаться по времени от взятого со стороны.
        во-вторых, ты сам написал, что первое решение у тебя на заработало, и потом ты мне пишешь, что это заняло у тебя две минуты. CoolStoryBob
      - fixin:
        
        16.04.2021 в 07:55
        
        Замечательно, а теперь повтори то же самое на 1С.
        И что то мне сомнительны 30-секундные тесты.
        Там было два готовых решения. То что с параметрами функции ЗаписьТекста, не заработало. А через АДО-Стрим заработало.
      - fajij28770:
        
        16.04.2021 в 13:18
        
        а в чем разница между 1с и не 1с, если всегда работа с файлам — это обертка над системными функциями, и они во всех языках примерно одни и те же. вот тебе на плюсах
        #include
        
        void copy_skipped(const char* src_path, const char* dst_path, std::size_t skip = 3) {
        std::ifstream src{src_path, std::ios::binary | std::ios::in};
        std::ofstream dst{dst_path, std::ios::binary | std::ios::out};
        
        src.seekg(skip);
        dst << src.rdbuf();
        }
        
        int main() {
        copy_skipped("1.txt", "2.txt", -1);
        return 0;
        }
      - fixin:
        
        17.04.2021 в 09:21
        
        возможно ты постоянно обрабатываешь файлы, поэтому напишешь этот код за 2 минуты, как ты там засекал.
        Я напишу этот код на 1с за 15 минут. Мне проще взять готовый.
      - fajij28770:
        
        17.04.2021 в 10:49
        
        возможно, я просто немного разбираюсь в архитектуре ПО, и когда вижу задачу, которая тривиально решается копированием байтов, пишу такой код руками за минуту, а не бегу искать решение в гугле
      - fixin:
        
        18.04.2021 в 08:41
        
        Молодец. Но в 1С это несколько сложнее делается (про обрезание байт). А вообще да, повторное использование кода — это хорошая привычка которая экономит время. «Все сам делаю» — плохая привычка.
- fixin:
  
  14.04.2021 в 07:22
  
  Зачем анализировать работающий код?
  
  Ответить
  - Zuko:
    
    14.04.2021 в 08:08
    
    А вот это в корне неверно. Потому что тогда зачем рефакторинг?
    
    Ответить
    - fixin:
      
      14.04.2021 в 12:56
      
      Рефакторинг, внезапно, стоит денег. Если есть бюджет, то да, если нет, то нет.
      
      Ответить
  - Павел:
    
    14.04.2021 в 11:38
    
    Допустим он для простоты делает не delete, а truncate т.к. «в базе одна организация».
    
    Ответить
  - fajij28770:
    
    14.04.2021 в 16:57
    
    как ты решил, что код работающий?
    
    Ответить
    - fixin:
      
      15.04.2021 в 07:32
      
      Проверил его на своих файлах, плюс по ответам тех, кто его проверял. У тебя есть сомнения в работоспособности кода?
      
      Ответить
      - fajij28770:
        
        15.04.2021 в 19:51
        
        у меня есть сомнения в работоспособности твоего подхода к тестированию
      - fixin:
        
        16.04.2021 в 07:54
        
        Какого рода сомнения, на чем основаны?
      - fajij28770:
        
        16.04.2021 в 13:25
        
        потому что ты тестируешь одномерно, то что ты сделал, называется «тестированием через черный ящик». а нормальное тестирование всегда включает анализ кода — чтобы проверить его покрытие, чтобы найти граничные случаи и проверить их
      - fixin:
        
        17.04.2021 в 09:19
        
        нормальное тестирование стоит нормальных денег. Особенно в авиации. 😉
        Надеюсь, это понятно?

JSON без BOM-кодировки

Читайте также:

комментария 33

Добавить комментарий Отменить ответ

Свежие записи

Свежие комментарии

Подпишитесь по e-mail

Архивы

JSON без BOM-кодировки

Читайте также:

Чат GPT пишет Ханойские Башни на 1С

Непослушный автомасштаб во внешней печатной форме

Печатная копия сертификата электронной подписи

комментария 33

Добавить комментарий Отменить ответ

Свежие записи

Свежие комментарии

Подпишитесь по e-mail

Архивы