輝夜の永遠亭 - Lunatic Princess

MSYS2 + MinGW-w64 + Git + gVim 环境配置

以前用 MSYS 的多，最近重装系统顺带把环境重新配一下，发现 MSYS2 挺顺手的。

一、安装 MSYS2

先装 MSYS2 的好处是之后可以将 $HOME 设为 /home/name/，再装其他 *nix 系工具时配置文件都会放在 MSYS2 的 /home/name 下，方便管理。

1. 到 http://sourceforge.net/projects/msys2/ 下载安装。

安装位置设为 D:/develop/msys64

添加环境变量 HOME 为 D:\develop\msys64\home\name，这个变量非常有用，后面配置要多次用到。

2. 运行 msys2_shell.bat

pacman -Sy

更新本地包数据

3. 升级核心包

pacman -S --needed filesystem msys2-runtime bash libreadline libiconv libarchive libgpgme libcurl pacman ncurses libintl

之后需要关闭所有 MSYS2 shell，然后运行 autorebase.bat

4. 升级其他包

pacman -Su

运行环境说明：

可以看到 MSYS2 有三个执行脚本，分别是 msys2_shell.bat、mingw32_shell.bat 和 mingw64_shell.bat，查看内容可以看到其中只有一行区别，即是设定 MSYSTEM 变量。这个变量在 /etc/profile 中会用到：

if [ -n "$MSYSTEM" ]
then
  case "$MSYSTEM" in
    MINGW32)
      PATH="/mingw32/bin:${MSYS2_PATH}:${PATH}"
      PKG_CONFIG_PATH="/mingw32/lib/pkgconfig"
      MANPATH="/mingw32/share/man:${MANPATH}"
      TERMINFO=/mingw32/share/terminfo:${TERMINFO}
    ;;
    MINGW64)
      PATH="/mingw64/bin:${MSYS2_PATH}:${PATH}"
      PKG_CONFIG_PATH="/mingw64/lib/pkgconfig"
      MANPATH="/mingw64/share/man:${MANPATH}"
      TERMINFO=/mingw64/share/terminfo:${TERMINFO}
    ;;
    MSYS)
      PATH="${MSYS2_PATH}:/opt/bin:${PATH}"
      PKG_CONFIG_PATH="/usr/lib/pkgconfig:/lib/pkgconfig"
      TERMINFO=/usr/share/terminfo
    ;;
    *)
      PATH="${MSYS2_PATH}:${PATH}"
    ;;
  esac
else
  PATH="${MSYS2_PATH}:${PATH}"
fi

可见，三个 .bat 的区别就是 PATH 的设置，mingw32_shell.bat 优先使用 msys64/mingw32 下的工具，mingw64_shell.bat 优先使用 msys64/mingw64 下的工具，而 msys2_shell.bat 两个都不使用，只用自身 msys 的工具。这么做的好处是当需要编译 32bit Target 的项目时使用 mingw32_shell.bat，64 bit 使用 mingw64_shell.bat，各套工具互不干扰。

继续阅读

又一次吃了浮点数的亏 = =

while(step > 0.02){

    for(;;){

        if(x+step <= 100.0 &&

            (ttlen = ttl(x+step, y)) < minlength){

            minlength = ttlen;

            x += step;

        } else if(x-step >=0.0 &&

            (ttlen = ttl(x-step, y)) < minlength){

            minlength = ttlen;

            x -= step;

        } else if(y+step <= 100.0 &&

            (ttlen = ttl(x, y+step)) < minlength){

            minlength = ttlen;

            y += step;

        } else if(y-step >= 0.0 &&

            (ttlen = ttl(x, y-step)) < minlength){

            minlength = ttlen;

            y -= step;

        } else break;

    }

    step /= 2.0;

}

在 x-y 平面上寻找一个对 ttl 函数的极值点。先用 step 为步长寻找，然后步长减半再找，直到满足一定精度为止。

逻辑上过程上都很简单才对，可惜以上代码在 VC2008 运行正确，用 Gcc 却陷入死循环。

调试下发现居然出现了这种情况：在 A 点时发现 B 比 A 小，然后在 B点发现 C 比 B 小，而在 C点又发现 A 更小……于是就在这几个点上跳不出来了。

其实以前也看过不少强调处理浮点数比较时要特别注意的地方，但每个地方都特别写一下又很麻烦，而且觉得 double 的精度够高应该不用担心，没想到还是出了问题。VC 里大概对浮点数的比较运算做了特殊处理才没出错，感觉在这种很细节的地方 VC 非常强调安全性，但可能有时候也会觉得多此一举或是担心性能上的影响吧。

总之发现问题所在就好解决了，(ttlen = ttl(x, y+step)) < minlength 改为 (ttlen = ttl(x, y+step)) < minlength - 1e-4 即可。

今后再处理浮点数的问题时一定要相当小心咯

fstream 文件 IO 点滴

很多时候较大数据量的文件 IO 总是成为瓶颈，为了提高效率，有时想要先将文件大块大块的读入再行处理。下面分析两种惯常的处理手法。

1. 将文件一次性读入 string 中。

貌似 std::getline 、 istream::getline 或是 operator<< operator>> 等都不提供一次读到文件结尾的机制，只有 istreambuf_iterator 可以做到：

ifstream in("input.txt");

string instr((istreambuf_iterator<char>(in)), istreambuf_iterator<char>());

string 的构造函数前一个参数要多加一层 () 以免编译器误认为是函数声明 = = ...

这样读入 string 会随着内容动态增长，空间不足时会触发额外的 realloc 及 copy 操作，为提高效率有必要预分配足够的空间：

ifstream in("input.txt");

in.seekg(0, ios::end);

streampos len = in.tellg();

in.seekg(0, ios::beg);

string instr;

instr.reserve(len);

instr.assign(istreambuf_iterator<char>(in), istreambuf_iterator<char>());

2. 将文件一次性读入 stringstream 中。

filebuf 和 stringbuf 无法直接通过 rdbuf() 重定向，因此从 filebuf 到 stringbuf 需要一次 copy 操作。最简单的方法是直接复制整个 streambuf ：

ifstream in("input.txt");

stringstream ss;

ss<<in.rdbuf();

与 string 的情况相同，这里同样也有一个空间 realloc 及 copy 的问题。但 streambuf 的缓冲区不是那么方便操作的，解决方法是我们给他手动指定一个空间：

ifstream in("input.txt");

in.seekg(0, ios::end);

streampos len = in.tellg();

in.seekg(0, ios::beg);

vector<char> buffer(len);

in.read(&buffer[0], len);

stringstream ss;

ss.rdbuf()->pubsetbuf(&buffer[0], len);

最后再顺便 BS 一下 VC 的 STL = =...

虽然 VC 的编译器效率没的说，但被 STL 拖后腿的话不就白搭了嘛。在文件 IO 方面 (fstream) 比起 MinGW (GCC 4.4.0) 带的要慢好几倍。GCC 的 fstream 格式化读写效率与 C 的比已经不分伯仲，以后应该还会有进一步的提升空间 (编译时格式控制 vs 执行时)

另外上面最后一段程序在 VS2008 (VC9.0) 下应该无法得到预想的结果，跟踪进去看了一下，VC 标准库里的 pubsetbuf 函数体居然是空的！内容如下(中间还有一层函数调用)：

virtual _Myt *__CLR_OR_THIS_CALL setbuf(_Elem *, streamsize)

        {       // offer buffer to external agent (do nothing)

        return (this);

        }

看来是等着我们来继承了啊 = = 。而在 MinGW (GCC 4.4.0) 中可以得到预期的结果。

从 std::list 中 size() 的时间复杂度引出的讨论...

很奇怪的，或者说是一个不应成为问题的问题...
std::list 的 size() 方法时间复杂度是多少？第一感觉应该是 O(1) 没错吧，多一个变量用于储存链表长度应该是很轻易的事情。于是有了下面这段代码：

#include<iostream>

#include<list>

#include<ctime>

using namespace std;

int main(){

    time_t start, finish;

    int num = 0;

    list<int> coll;

    start = clock();

    for(int i=0;i<10000;++i){

        coll.push_back(i);

        num += coll.size();

    }

    finish = clock();

    cout<<finish - start<<"   num:"<<num<<endl;

    coll.clear();

    start = clock();

    for(int i=0;i<10000;++i){

        coll.push_back(i);

    }

    finish = clock();

    cout<<finish - start<<endl;

    return 0;

}

对两个循环分别计时比较。前一个循环只比后一个多了一句 num += coll.size(); 为了使编译器确实生成 list::size() 的代码。
在 MinGW 5.1.4 中 (GCC 3.4.5) 编译结果运行如下：

450   num:50005000

10

可以看到，前一个循环居然比后一个多花了几乎 45 倍的时间...当我把循环次数从 10000 加到 100000 时程序半天没出结果...

由此有理由猜测 std::list 的 size() 方法难道是 O(N) 的？果然，在头文件中发现了这一段：

size_type

size() const

{ return std::distance(begin(), end()); }

直接调用 <algorithm> 算法库函数 distance() 计算元素个数……怪不得这么慢。然后又用 VS2008 (VC9.0)编译，结果如下：

30   num:50005000

60

奇怪的是前一个循环居然比后一个还快...不过至少知道 VS2008 (VC9.0)里的 size() 应该是 O(1) 的。同样查看了一下代码，如下：

size_type size() const

    {   // return length of sequence

    return (_Mysize);

    }

_Mysize 是一个 size_type 类型的变量。疑问解决。不过又有了新问题：

--------------- 咱 -- 是 -- 分 -- 隔 -- 线 ------------------

为什么 GCC 里要把 list::size() 的复杂度搞成 O(N)？

一通搜索后终于看到有这样的讨论：关于 list::splice() 函数。

list 是链表结构，它的优势就在于可以 O(1) 的时间复杂度任意插入删除甚至拼接 list 片段(删除时可能不是，因为要释放内存)，list::splice() 是一个很强大的功能，它可在任意位置拼接两个 list，这正是 list 的优势。如果我们在类内部以一个变量储存 list 的长度，那么 splice() 之后新 list 的长度该如何确定？这是一个很严峻的问题，如果要在拼接操作时计算拼接部分的长度，那么将把 O(1) 的时间变成 O(N)，这么一来 list 相对 vector 的优势就消失殆尽。

面对这个问题，GCC 和 VC 的 STL 库作者们做了不同的选择。GCC 选择舍弃在 list 内部保存元素数量，而在 size() 时直接从头数到尾，这便出现了开头看到的 O(N) 时间才算出 size()；相反，VC 中有了变量 _Mysize ，无论在 insert() erase() splice() 或是 push() pop() 时都需要对其做相应修改。在上面的两个试验中已经看出同样是 10000 个 push_back() 操作，VC 花的时间比较长，不过也仅仅是一个 inc 指令，差别很小就是了。上面几种会改变 list 内容的操作中，大部分对元素数量的影响只是 +1 或 -1，只有 splice() 需要计算拼接部分元素个数，这个差别就大了，咱还是继续用实验证明吧：

#include<iostream>

#include<list>

#include<ctime>

using namespace std;

int main(){

    time_t start,finish;

    list<int> col;

    col.push_back(1);

    col.push_back(10000);

    list<int> col2;

    start = clock();

    for(int i=2;i<10000;++i)

        col2.push_back(i);

    finish = clock();

    cout<<finish - start<<endl;

    int num = 0;

    start = clock();

    for(int i=0;i<10000;++i){

        col.splice(++col.begin(),col2,++col2.begin(),--col2.end());

        num += *(++col.begin());

        col2.splice(++col2.begin(),col,++col.begin(),--col.end());

        num += *(++col2.begin());

    }

    finish = clock();

    cout<<finish - start<<"   num:"<<num<<endl;

    return 0;

}

首先是 MinGW (GCC 3.4.5) 的结果：

10

0   num:60000

可以看到 10000 次 push 是 10，相对的 20000 次 splice() 几乎没花时间 = =

然后是 VS2008 (VC9.0)：

20

2714   num:60000

差别非常明显，花了2秒多才完成。当我把循环次数改成 100000 后 GCC 仍是眨眼间的事，VC 却长时间运行无结果……

怎么说呢，GCC 显然是追求效率至上，尽量体现出 list 的优势所在，不过我觉得这么一来倒不如干脆不提供 list 的 size() 方法，有需求的程序员可以自己维护一个变量记录长度，以免误认为 size() 是 O(1) 的而犯下严重错误。相对的 VC 强调功能性和整体效率，可能在实际中需要对链表一段内容做 splice() 操作的机会远远小于求 size() 的操作，所以舍弃前者而保留后者，不过要维护 _Mysize 其他相关函数中也增加了开销。一个见仁见智的问题，我觉得还是 GCC 的选择比较好，list 的优势应该保留，但能在 size() 函数处给个 warning 什么的就好了。

我想还有一个选择是这样：在 list 内部用一个 bool 变量指示当前内部 size 值是有效还是无效。在通常操作时 bool 保持 true，这样在 size() 时直接返回原值即可；在 splice() 后将此 bool 值置为 false 并不计算长度，直到最后又有需要 size() 时发现 bool 是 false 则从头再来一遍 distance() 并再将 bool 置为 true。暂时只想出这么一个算是折中的方法，基本上都能保持两边 O(1) 的效率，但相应其他各关于元素数量的函数内部都要多一个判断当前 size 值是有效还是无效并选择是否改变其值。反正总是不能非常完美

嘛...本来只是发现 size() 的效率问题，没想到却扯出这么一桩事出来...也算长知识了吧

MSYS2 + MinGW-w64 + Git + gVim 环境配置

一、安装 MSYS2

运行环境说明：

又一次吃了浮点数的亏 = =

fstream 文件 IO 点滴

从 std::list 中 size() 的时间复杂度引出的讨论...

輝夜(tadvent)

Search

Categories

Hot Posts

New Messages

Links

New Comments

Tag Cloud

Counter

Meta